Guia de Currículo para Site Reliability Engineer — Como Escrever um Currículo que Garante Entrevistas

O Glassdoor reporta um salário médio de SRE de $169.680 nos Estados Unidos, enquanto o Indeed coloca a cifra em $154.351 — e SREs seniores em empresas de primeira linha regularmente ultrapassam $200.000+ em compensação total [1][2]. O BLS classifica funções de SRE sob desenvolvedores de software (15% de crescimento projetado até 2034) e administradores de redes/sistemas, refletindo a natureza híbrida de uma disciplina que o Google codificou e que toda grande empresa de tecnologia agora pratica [3]. Equipes de SRE são a espinha dorsal da confiabilidade de sistemas em escala, e seu currículo deve provar que você pode manter serviços funcionando enquanto simultaneamente os melhora.

Este guia cobre como escrever um currículo de SRE que demonstre tanto habilidade em engenharia de software quanto profundidade operacional.

Pontos-Chave

  • Lidere com métricas de confiabilidade: porcentagens de uptime, desempenho de SLO/SLI, reduções de MTTR e melhorias na frequência de incidentes.
  • Prove que você sabe programar, não apenas operar — SRE é uma disciplina de engenharia de software aplicada a problemas de operações.
  • Quantifique a escala de infraestrutura: requisições por segundo, número de serviços, tamanhos de clusters, volumes de dados e distribuição geográfica.
  • Mostre a narrativa de redução de toil: automatize trabalho manual, construa sistemas de auto-recuperação, crie ferramentas que eliminam carga operacional.
  • Inclua experiência de plantão, liderança em resposta a incidentes e contribuições à cultura de postmortem.

O Que os Recrutadores Procuram em um Currículo de SRE?

A contratação de SRE combina avaliação de engenharia de software e engenharia de sistemas. Recrutadores e gerentes de contratação buscam:

  1. Proficiência em engenharia de software — Python, Go, Java ou similar. SREs escrevem código de produção: ferramentas de automação, sistemas de monitoramento, pipelines de deploy e infraestrutura de auto-recuperação [4].
  2. Sistemas em escala — Experiência operando sistemas que servem milhões de requisições, abrangem múltiplas regiões e requerem disponibilidade de 99,9%+.
  3. Observabilidade e monitoramento — Prometheus, Grafana, Datadog, PagerDuty, OpenTelemetry. Você consegue instrumentar sistemas, construir dashboards e detectar anomalias?
  4. Gestão de incidentes — Participação em plantão, experiência como comandante de incidentes, autoria de postmortems e melhorias mensuráveis de MTTR.
  5. Infraestrutura como código e automação — Terraform, Ansible, Pulumi e Kubernetes. A capacidade de codificar infraestrutura e eliminar operações manuais.

O livro de SRE do Google, texto fundacional da disciplina, define SRE como "o que acontece quando você pede a um engenheiro de software para projetar uma função de operações" — e seu currículo deve refletir essa identidade [4].

Melhor Formato de Currículo para SRE

  • Extensão: 1-2 páginas. Uma página para menos de 5 anos de experiência; duas páginas para SREs seniores com ampla experiência em resposta a incidentes e engenharia de plataformas.
  • Layout: Cronológico inverso. A contratação em engenharia é conservadora quanto ao formato.
  • Seção de habilidades técnicas: Organizada por categoria: Linguagens, Nuvem/Infraestrutura, Observabilidade, CI/CD, Bancos de Dados, Redes.
  • Ordem das seções: Resumo → Habilidades → Experiência → Projetos/Open Source → Formação → Certificações.
  • Métricas de plantão e incidentes: Inclua dentro das descrições de cargos, não como seção separada.

Habilidades-Chave a Incluir

Habilidades Técnicas

  • Linguagens de programação (Python, Go, Java, Bash, Ruby)
  • Administração de sistemas Linux (systemd, redes, ajuste de performance)
  • Kubernetes (deploy, escalabilidade, operadores, Helm, service mesh)
  • Plataformas de nuvem (AWS, GCP, Azure) — VPC, IAM, computação, armazenamento, serviços de rede
  • Infraestrutura como código (Terraform, Pulumi, CloudFormation, Ansible)
  • Pipelines de CI/CD (Jenkins, GitHub Actions, GitLab CI, Argo CD, Spinnaker)
  • Observabilidade (Prometheus, Grafana, Datadog, New Relic, OpenTelemetry)
  • Gestão de incidentes (PagerDuty, OpsGenie, Incident.io)
  • Sistemas distribuídos (consenso, teorema CAP, filas de mensagens, service mesh)
  • Operações de banco de dados (PostgreSQL, MySQL, Redis, DynamoDB, Cassandra)
  • Orquestração de contêineres (Docker, Kubernetes, ECS, Nomad)
  • Service mesh (Istio, Envoy, Linkerd)
  • Engenharia do caos (Gremlin, Litmus, Chaos Monkey)
  • Balanceamento de carga e gestão de tráfego (NGINX, HAProxy, Envoy, AWS ALB/NLB)
  • Definição de SLO/SLI/SLA e gestão de error budget

Habilidades Interpessoais

  • Liderança em incidentes e comunicação sob pressão
  • Facilitação de postmortems e cultura sem culpa
  • Colaboração entre equipes com times de produto e desenvolvimento
  • Documentação técnica e criação de runbooks
  • Mentoria de plantão e treinamento de escalonamento
  • Priorização de trabalho de confiabilidade vs. desenvolvimento de funcionalidades
  • Comunicação com stakeholders sobre métricas de confiabilidade

Tópicos de Experiência Profissional

Nível Inicial (0-2 Anos)

  • Gerenciei rotação de plantão para 15 microsserviços em produção servindo 2M de usuários ativos diários, reduzindo o volume de alertas em 40% em 6 meses através de ajuste de alertas e automação de runbooks.
  • Construí um sistema de provisionamento de infraestrutura baseado em Terraform para ambientes AWS (ECS, RDS, ElastiCache), reduzindo o tempo de deploy de novos serviços de 3 dias para 2 horas com configurações de segurança padronizadas.
  • Desenvolvi uma ferramenta de análise de logs baseada em Python que correlacionava automaticamente padrões de erro em 5 serviços durante incidentes, reduzindo o tempo médio de triagem de 45 minutos para 12 minutos.
  • Implementei monitoramento com Prometheus e dashboards Grafana para um cluster Kubernetes de 20 serviços, cobrindo 150+ métricas customizadas e estabelecendo linhas base de SLI que informaram as primeiras definições formais de SLO da equipe.
  • Automatizei a rotação de certificados SSL em 50+ domínios usando Cert-Manager e operadores customizados do Kubernetes, eliminando um processo manual trimestral que anteriormente requeria 8 horas e apresentava risco de expiração.

Meio de Carreira (3-7 Anos)

  • Projetei e operei uma plataforma Kubernetes multi-região abrangendo 3 regiões AWS e 12 clusters, suportando 200+ microsserviços servindo 50M requisições por dia com 99,95% de disponibilidade.
  • Liderei o programa de SLO para uma plataforma servindo 10M de usuários, definindo SLIs de latência (p99 < 200ms), disponibilidade (99,9%) e throughput para 30 serviços, e estabelecendo políticas de error budget que equilibravam confiabilidade com velocidade de funcionalidades [4].
  • Reduzi o tempo médio de recuperação (MTTR) de 90 minutos para 15 minutos construindo um sistema automatizado de resposta a incidentes integrando PagerDuty, Slack e ferramentas de diagnóstico customizadas que identificavam causas raiz prováveis dentro de 3 minutos do disparo do alerta.
  • Implementei um programa de engenharia do caos usando Gremlin, conduzindo 50+ experimentos que identificaram 12 modos de falha críticos em sistemas de produção, incluindo 3 que teriam causado interrupções de múltiplas horas durante picos de tráfego.
  • Construí um pipeline de deploy baseado em GitOps usando Argo CD e Helm, habilitando 200+ deploys semanais em 60 serviços com análise canary automatizada e rollback automático, reduzindo incidentes relacionados a deploys em 75%.

Nível Sênior (8+ Anos)

  • Construí e liderei uma equipe de SRE de 10 pessoas responsável por uma plataforma processando $2B+ em volume de transações anuais em 300 microsserviços, mantendo 99,99% de disponibilidade e suportando crescimento de tráfego de 5x em 3 anos.
  • Arquitetei a plataforma de observabilidade da empresa usando OpenTelemetry, Prometheus, Jaeger e Grafana, fornecendo métricas, traces e logs unificados em 500+ serviços e reduzindo o tempo médio de detecção de 25 minutos para menos de 3 minutos.
  • Projetei e executei uma migração sem downtime de uma aplicação monolítica para uma arquitetura de microsserviços, decompondo uma base de código de 500K linhas em 40 serviços deployáveis independentemente em 18 meses mantendo o SLO de 99,95% durante todo o processo.
  • Estabeleci o framework de gestão de incidentes da empresa incluindo classificação de severidade, rotação de comandante de incidentes, processo de postmortem e revisões trimestrais de confiabilidade, reduzindo incidentes SEV-1 de 12 para 3 por trimestre em 2 anos.
  • Reduzi custos de infraestrutura em $4,2M anuais através de rightsizing, automação de instâncias spot, planejamento de capacidade reservada e otimização de recursos do Kubernetes em um ambiente cloud de 2.000 nós.

Exemplos de Resumo Profissional

Nível Inicial: Site reliability engineer com 2 anos de experiência gerenciando ambientes Kubernetes em produção e operações de plantão para serviços servindo 2M+ de usuários ativos diários. Proficiente em Python, Terraform, Prometheus e AWS com foco em automação, monitoramento e resposta a incidentes. Reduziu o volume de alertas em 40% através de ajuste de alertas e automação de runbooks.

Meio de Carreira: SRE com 6 anos de experiência projetando plataformas multi-região, definindo programas de SLO e construindo automação de deploy para serviços processando 50M requisições diárias. Especialista em Kubernetes, Terraform e ferramentas de observabilidade (Prometheus, Grafana, OpenTelemetry). Histórico comprovado de redução de MTTR de 90 para 15 minutos e redução de incidentes de deploy em 75% através de automação GitOps.

Sênior: Líder de SRE sênior com 12+ anos de experiência construindo e liderando equipes de engenharia de confiabilidade para plataformas processando $2B+ em transações anuais. Especialista em arquitetura de sistemas distribuídos, design de plataformas de observabilidade e frameworks de gestão de incidentes. Histórico de manter 99,99% de disponibilidade, reduzir custos de infraestrutura em $4,2M anuais e escalar plataformas 5x enquanto lidera equipe de 10.

Formação e Certificações

Funções de SRE priorizam capacidade técnica demonstrada:

  • Bacharelado em Ciência da Computação, Engenharia de Software ou área relacionada — esperado mas nem sempre obrigatório com forte experiência em sistemas.
  • Autodidata ou bootcamp com portfólio — viável com operações de produção demonstradas e habilidades de programação.

Certificações relevantes:

  • AWS Solutions Architect (Associate/Professional) — valida design de infraestrutura cloud (Amazon Web Services) [5].
  • CKA (Certified Kubernetes Administrator) — valida expertise em operações Kubernetes (CNCF).
  • CKAD (Certified Kubernetes Application Developer) — valida habilidades de desenvolvimento Kubernetes (CNCF).
  • Google Professional Cloud DevOps Engineer — cobre práticas de SRE no GCP (Google Cloud).
  • HashiCorp Terraform Associate — valida proficiência em infraestrutura como código (HashiCorp).
  • AWS DevOps Engineer Professional — valida CI/CD e automação na AWS (Amazon Web Services).

Erros Comuns no Currículo

  1. Posicionar-se como sysadmin — SRE é uma disciplina de engenharia de software. Se seu currículo se lê como um administrador de sistemas sem programação, não passará pelos filtros de contratação de engenharia. Lidere com contribuições de engenharia de software.
  2. Métricas de confiabilidade ausentes — Porcentagens de uptime, MTTR, conformidade com SLO e desempenho de error budget são as métricas centrais de SRE. Cada descrição de cargo deve incluí-las.
  3. Sem indicadores de escala — "Operei clusters Kubernetes" é vago. "Operei 12 clusters Kubernetes em 3 regiões suportando 200+ microsserviços e 50M requisições diárias" comunica capacidade.
  4. Ignorar redução de toil — A missão central de SRE é eliminar toil através de automação [4]. Mostre o que você automatizou, o tempo economizado e a carga operacional removida.
  5. Listas genéricas de ferramentas — Liste ferramentas com contexto: "Prometheus (5.000+ métricas customizadas, 200+ regras de alerta)" não apenas "Prometheus".
  6. Narrativa de gestão de incidentes ausente — Experiência de plantão, liderança em resposta a incidentes e contribuições a postmortems são esperadas. Inclua alertas por mês, MTTR e exemplos de resolução.
  7. Sem evidência de programação — Se você não pode apontar código que escreveu (ferramentas de automação, plataformas internas, soluções de monitoramento), adicione um link do GitHub ou descreva projetos de engenharia específicos.

Palavras-Chave ATS para SRE

Site Reliability Engineering, SRE, DevOps, Kubernetes, Docker, AWS, GCP, Azure, Terraform, Infraestrutura como Código, CI/CD, Monitoramento, Observabilidade, Prometheus, Grafana, Datadog, Gestão de Incidentes, Plantão, MTTR, SLO, SLI, SLA, Error Budget, Automação, Python, Go, Linux, Sistemas Distribuídos, Microsserviços, Confiabilidade, Disponibilidade, Escalabilidade, Engenharia do Caos, GitOps, Argo CD, Helm, Service Mesh, Balanceamento de Carga, Postmortem, Redução de Toil, Infraestrutura Cloud

Pontos-Chave Finais

  • SRE é engenharia de software para confiabilidade — seu currículo deve mostrar programação junto com operações.
  • Métricas de confiabilidade (uptime, MTTR, conformidade com SLO) são a moeda central de currículos de SRE.
  • Quantifique a escala de infraestrutura: serviços, clusters, requisições por segundo, volume de transações.
  • Mostre a narrativa de redução de toil: o que você automatizou e o impacto que teve.
  • Inclua experiência em gestão de incidentes e contribuições de plantão.

Crie seu currículo otimizado para ATS de Site Reliability Engineer com o Resume Geni — é grátis para começar.

Perguntas Frequentes

P: Qual é a diferença entre SRE e DevOps em um currículo? R: SRE é uma implementação específica dos princípios DevOps com foco em engenharia de confiabilidade, gestão baseada em SLO e error budgets. DevOps é um framework cultural e de processos mais amplo. Se o título da vaga diz SRE, enfatize métricas de confiabilidade (SLOs, MTTR, error budgets), gestão de incidentes e eliminação de toil. Se diz DevOps, enfatize CI/CD, automação e infraestrutura [4].

P: SREs precisam saber programar? R: Sim. SRE é explicitamente um cargo de engenharia de software aplicado a operações. As equipes de SRE do Google tipicamente exigem que os candidatos passem nas mesmas entrevistas de programação que os engenheiros de software [4]. No mínimo, demonstre proficiência em Python ou Go com exemplos de código de produção.

P: A certificação CKA vale a pena? R: Sim, particularmente se você trabalha com Kubernetes diariamente. CKA valida habilidades práticas de administração Kubernetes e é reconhecida em toda a indústria. É especialmente valiosa para candidatos fazendo transição de funções tradicionais de sysadmin para SRE.

P: Como devo descrever a experiência de plantão? R: Inclua a cadência de rotação ("1 semana a cada 4"), volume de alertas ("15 alertas por mês, reduzidos para 9"), métricas de MTTR e um exemplo específico de resolução de incidente que demonstre sua abordagem diagnóstica.

P: Devo incluir um perfil do GitHub? R: Fortemente recomendado. Gerentes de contratação de SRE procuram evidência de capacidade de programação. Fixe repositórios mostrando automação de infraestrutura, ferramentas de monitoramento ou projetos de plataformas internas. Garanta que os READMEs sejam claros e o código bem estruturado.

P: Como faço a transição de sysadmin para SRE? R: No seu currículo, enfatize projetos de automação, scripting (Python/Go/Bash), implementação de monitoramento e qualquer trabalho de SLO ou confiabilidade. Adicione uma seção de projetos mostrando contribuições open source ou ferramentas pessoais de SRE. Obtenha CKA e uma certificação cloud para validar habilidades modernas.

P: Em qual plataforma cloud devo focar? R: Adapte à empresa alvo. AWS domina a contratação de SRE empresarial, GCP é proeminente no Google e empresas com ferramentas adjacentes ao Google, e Azure está crescendo no segmento empresarial. Experiência multi-cloud é cada vez mais valorizada.

See what ATS software sees Your resume looks different to a machine. Free check — PDF, DOCX, or DOC.
Check My Resume

Tags

site reliability engineer guia de currículo
Blake Crosley — Former VP of Design at ZipRecruiter, Founder of Resume Geni

About Blake Crosley

Blake Crosley spent 12 years at ZipRecruiter, rising from Design Engineer to VP of Design. He designed interfaces used by 110M+ job seekers and built systems processing 7M+ resumes monthly. He founded Resume Geni to help candidates communicate their value clearly.

12 Years at ZipRecruiter VP of Design 110M+ Job Seekers Served

Ready to test your resume?

Get your free ATS score in 30 seconds. See how your resume performs.

Try Free ATS Analyzer