Exemplos de Currículo de Site Reliability Engineer Que Conseguem Entrevistas em 2026

O Bureau of Labor Statistics projeta aproximadamente 14.300 vagas anuais para administradores de redes e sistemas de computação (SOC 15-1244) até 2034, a categoria ocupacional que abrange Site Reliability Engineers. Ainda assim, o próprio cargo de SRE paga remunerações muito acima da mediana da categoria, de US$ 96.800. O Glassdoor relata uma remuneração total mediana de US$ 200.000 para SREs em 2025, com engenheiros sêniores em empresas como Google, Netflix e Uber regularmente ultrapassando US$ 350.000 em remuneração total. A diferença entre a base do BLS e os salários reais de SRE reflete uma verdade fundamental: as empresas pagam um prêmio por engenheiros capazes de quantificar seu impacto em disponibilidade, latência e resposta a incidentes, e seu currículo é onde essa quantificação começa.

Abaixo estão três exemplos completos de currículo de SRE, do nível júnior ao sênior, construídos sobre ferramentas reais, certificações reais e as métricas que gerentes de contratação realmente avaliam.

Principais Conclusões

  • Comece cada bullet com um número. SRE é uma disciplina orientada por métricas. Gerentes de contratação no Google, Datadog e Cloudflare procuram por porcentagens de disponibilidade, reduções de latência e MTTR de incidentes antes de ler qualquer outra coisa.
  • Nomeie sua stack de observabilidade explicitamente. "Experiência com monitoramento" não significa nada. "Construí dashboards Prometheus + Grafana acompanhando 4.200 SLIs em 38 microsserviços" diz a um gerente de contratação exatamente o que você pode fazer no primeiro dia.
  • Separe infraestrutura como código de DevOps geral. Módulos Terraform, stacks Pulumi e composições Crossplane são habilidades distintas da configuração de pipelines CI/CD. Liste-os em sua própria seção.
  • Quantifique os resultados de gerenciamento de incidentes, não apenas a participação. "Rotação de plantão" é uma atribuição. "Reduzi o MTTR de P1 de 47 minutos para 12 minutos implementando runbooks automatizados no PagerDuty" é um sinal de contratação.
  • Certificações têm peso real para SREs. O Certified Kubernetes Administrator (CKA) da CNCF, o Google Cloud Professional Cloud DevOps Engineer e o AWS Certified DevOps Engineer Professional são as três credenciais que gerentes de contratação mencionam com mais frequência em vagas de SRE.

O Que Gerentes de Contratação Procuram

Métricas de Disponibilidade e Confiabilidade

Toda descrição de vaga de SRE inclui uma variação de "manter alta disponibilidade". Os currículos que recebem retorno traduzem isso em especificidades. Gerentes de contratação querem ver que você melhorou a disponibilidade do serviço de 99,95% para 99,99%, o que significa que você reduziu o tempo de inatividade anual de 4,4 horas para 52 minutos. Eles querem saber se você define SLOs usando o modelo de error budget que o Google popularizou em seus livros de SRE, ou se trata a disponibilidade como um objetivo abstrato. De acordo com o SRE Workbook do Google, um SLO de 99,9% em um serviço que recebe 3 milhões de requisições ao longo de quatro semanas se traduz em um error budget de 3.000 falhas permitidas. Se seu currículo demonstra que você operacionalizou error budgets para equilibrar velocidade de entrega de features com confiabilidade, você está falando a linguagem que os gerentes de contratação entendem.

Observabilidade e Resposta a Incidentes

A Observability Survey de 2025 descobriu que 70% das empresas agora usam tanto Prometheus quanto OpenTelemetry para suas necessidades de monitoramento. Gerentes de contratação esperam que candidatos a SRE demonstrem fluência em toda a stack de observabilidade: coleta de métricas com Prometheus ou Datadog, visualização com Grafana, agregação de logs com Elastic Stack ou Loki, tracing distribuído com Jaeger ou Tempo, e alertas roteados através de PagerDuty ou Opsgenie. Os currículos mais fortes descrevem o ciclo completo de incidentes. Prometheus detecta uma anomalia, dashboards Grafana expõem o raio de impacto, PagerDuty aciona o engenheiro de plantão, e uma revisão pós-incidente produz um item de ação que previne recorrência. Gerentes de contratação em empresas como Uber e Cloudflare procuram especificamente candidatos que possam apontar reduções no Mean Time to Recovery (MTTR) e menos incidentes repetidos.

Automação de Infraestrutura e Redução de Toil

Redução de toil é a missão definidora do SRE. O livro de SRE do Google estabelece que times de SRE devem gastar no máximo 50% de seu tempo em toil operacional, com o tempo restante dedicado a trabalho de engenharia que reduza o toil futuro. Seu currículo precisa demonstrar essa filosofia em ação. Listar Terraform, Ansible ou Pulumi como habilidades é o básico. O que separa candidatos fortes é quantificar o toil que eliminaram: "Automatizei 340 etapas manuais de deploy em um pipeline Terraform de 12 estágios, reduzindo o tempo de provisionamento de 6 horas para 14 minutos" ou "Escrevi scripts de auto-remediação em Python que resolveram 73% dos alertas de pressão de disco sem intervenção humana." Infraestrutura como código, workflows GitOps com ArgoCD ou Flux, e sistemas auto-recuperáveis são as provas concretas que levam currículos ao topo da pilha.

Programação e Design de Sistemas

SRE é uma disciplina de engenharia de software, não um cargo de operações com um novo título. Empresas como Google, LinkedIn e Dropbox exigem que candidatos a SRE passem em entrevistas de codificação no mesmo nível de vagas de engenharia de software. Seu currículo deve demonstrar proficiência em programação em Python, Go ou Java, com projetos específicos que mostrem pensamento em nível de sistemas. Construir um operador Kubernetes customizado em Go que gerencia 200 CRDs, escrever um framework de chaos engineering que executa 45 testes automatizados de injeção de falhas semanalmente, ou desenvolver uma ferramenta CLI interna adotada por 150 engenheiros são os tipos de entradas que sinalizam profundidade de engenharia em vez de amplitude operacional.


Exemplo de Currículo de Site Reliability Engineer Júnior (0-2 Anos)

Jordan Nakamura San Francisco, CA | [email protected] | github.com/jnakamura LinkedIn: linkedin.com/in/jordannakamura


Resumo

Site Reliability Engineer com experiência prática operando clusters Kubernetes e stacks de monitoramento Prometheus em escala durante estágios na Cloudflare e Datadog. Construí ferramentas automatizadas de resposta a incidentes que reduziram o ruído de alertas em 38%. Certified Kubernetes Administrator (CKA) com fortes habilidades de programação em Python e Go.


Certificações

  • Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2025
  • HashiCorp Certified: Terraform Associate (004) | HashiCorp | 2025
  • AWS Certified Cloud Practitioner | Amazon Web Services | 2024

Habilidades Técnicas

  • Linguagens: Python, Go, Bash, SQL
  • Containers e Orquestração: Kubernetes, Docker, Helm, Kustomize
  • Observabilidade: Prometheus, Grafana, Datadog, PagerDuty, ELK Stack
  • Infraestrutura como Código: Terraform, Ansible, CloudFormation
  • Plataformas de Nuvem: AWS (EC2, EKS, S3, Lambda), GCP (GKE, Cloud Run)
  • CI/CD: GitHub Actions, Jenkins, ArgoCD
  • Sistemas Operacionais: Linux (Ubuntu, CentOS, Amazon Linux)

Experiência

Estagiário de Site Reliability Engineer | Cloudflare | San Francisco, CA | Mai 2025 - Ago 2025

  • Implantei exporters Prometheus em 14 data centers de borda, aumentando a cobertura de métricas de 62% para 94% dos serviços de produção
  • Escrevi 23 dashboards Grafana monitorando latência de requisições (p50, p95, p99) para Cloudflare Workers, usados diariamente por um time de 8 SREs
  • Automatizei rotação de certificados TLS para 1.200 domínios de clientes usando um script Python integrado à PKI interna da Cloudflare, reduzindo tickets manuais de renovação em 89%
  • Participei de revisões semanais de incidentes e contribuí com 4 itens de ação pós-incidente implementados em produção
  • Reduzi a fadiga de alertas ajustando 47 regras de alerta do Prometheus, diminuindo falsos positivos em 38% ao longo de 8 semanas

Estagiário de Engenharia DevOps | Datadog | New York, NY | Mai 2024 - Ago 2024

  • Gerenciei configurações Terraform para 6 ambientes AWS (dev, staging, produção em 2 regiões) compreendendo 340 recursos
  • Construí um pipeline CI no GitHub Actions que executava Terraform plan em cada pull request, capturando 12 problemas de drift de infraestrutura antes que chegassem à produção
  • Escrevi uma ferramenta CLI em Go para análise de logs que processava 2,3 milhões de linhas de log por execução, reduzindo o tempo de investigação para engenheiros de plantão de 25 minutos para 4 minutos
  • Contribuí para um operador Kubernetes interno que gerenciava 85 recursos CronJob, garantindo 99,7% de taxa de sucesso de jobs agendados

Monitor, Sistemas Distribuídos | UC Berkeley | Berkeley, CA | Jan 2024 - Mai 2024

  • Auxiliei 180 alunos em atividades de laboratório sobre consenso distribuído (Raft), frameworks RPC e armazenamentos chave-valor tolerantes a falhas
  • Desenvolvi 3 scripts de correção automatizada em Python que avaliavam implementações MapReduce dos alunos contra 45 casos de teste

Educação

Bacharel em Ciências, Ciência da Computação | University of California, Berkeley | Mai 2025

  • Disciplinas Relevantes: Sistemas Distribuídos, Sistemas Operacionais, Redes de Computadores, Sistemas de Banco de Dados
  • Projeto Final: Construí uma ferramenta de chaos engineering que injetava partições de rede e falhas de latência em um cluster Kubernetes de 12 nós, validando o comportamento de auto-recuperação em 8 cenários de falha

Exemplo de Currículo de Site Reliability Engineer Pleno (3-7 Anos)

Priya Raghavan Seattle, WA | [email protected] | github.com/praghavan LinkedIn: linkedin.com/in/priyaraghavan


Resumo

Site Reliability Engineer com 5 anos de experiência construindo e escalando plataformas de observabilidade, sistemas de resposta a incidentes e automação de infraestrutura na Netflix e Stripe. Melhorei a disponibilidade da plataforma de 99,95% para 99,995% ao mesmo tempo em que apoiei um crescimento de tráfego de 3x. Liderei práticas de SRE para uma infraestrutura de pagamentos que processa US$ 2,1 bilhões em volume anual de transações.


Certificações

  • Google Cloud Professional Cloud DevOps Engineer | Google Cloud | 2024
  • Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2023
  • AWS Certified DevOps Engineer - Professional | Amazon Web Services | 2022

Habilidades Técnicas

  • Linguagens: Python, Go, Java, Bash, HCL
  • Containers e Orquestração: Kubernetes, Docker, Istio, Envoy, Helm, Kustomize
  • Observabilidade: Prometheus, Thanos, Grafana, Datadog, Jaeger, OpenTelemetry, PagerDuty, Loki
  • Infraestrutura como Código: Terraform, Pulumi, Crossplane, Ansible
  • Plataformas de Nuvem: AWS (EKS, RDS, DynamoDB, Lambda, CloudFront), GCP (GKE, BigQuery, Spanner)
  • CI/CD e GitOps: ArgoCD, Spinnaker, Jenkins, GitHub Actions, Flux
  • Bancos de Dados: PostgreSQL, Redis, Cassandra, DynamoDB
  • Chaos Engineering: Gremlin, Chaos Monkey, Litmus

Experiência

Senior Site Reliability Engineer | Netflix | Los Gatos, CA | Mar 2023 - Presente

  • Arquitetei plataforma de observabilidade servindo 42 times de engenharia, ingerindo 18 milhões de métricas por segundo através de uma stack federada Prometheus + Thanos com 99,99% de disponibilidade de consultas
  • Reduzi o MTTR de incidentes P1 de 34 minutos para 9 minutos construindo runbooks de diagnóstico automatizados que correlacionavam métricas, logs e traces em 280 microsserviços
  • Projetei e implementei framework de SLO adotado por 38 serviços, com políticas de error budget que limitavam automaticamente deploys quando serviços consumiam mais de 80% de seu budget mensal
  • Liderei migração de 14 serviços stateful do EC2 para Kubernetes (EKS), completando a transição com zero downtime voltado ao cliente em 3 zonas de disponibilidade
  • Construí um modelo de planejamento de capacidade em Python que previa necessidades de computação com 90 dias de antecedência com 94% de precisão, economizando US$ 1,8 milhão anualmente em infraestrutura superdimensionada
  • Reduzi a carga de plantão automatizando a remediação para 12 dos 20 principais tipos de alerta recorrentes, diminuindo páginas fora do horário comercial de 23 por semana para 6

Site Reliability Engineer | Stripe | San Francisco, CA | Jun 2021 - Fev 2023

  • Mantive 99,999% de disponibilidade para infraestrutura de processamento de pagamentos processando 14.000 transações por segundo em pico (Black Friday, Cyber Monday)
  • Implementei tracing distribuído com Jaeger em 65 microsserviços, reduzindo o tempo médio para identificar a causa raiz de 22 minutos para 4 minutos em incidentes relacionados a latência
  • Escrevi módulos Terraform gerenciando 2.400 recursos AWS em 4 regiões, com detecção automática de drift que capturou e corrigiu 89 discrepâncias de configuração ao longo de 12 meses
  • Desenvolvi um framework de teste de carga usando k6 que simulava 500.000 usuários concorrentes, identificando 7 gargalos antes que impactassem a produção durante o pico de tráfego de feriados de 2022
  • Liderei 28 revisões pós-incidente e acompanhei 94% dos itens de ação até a conclusão em 14 dias, reduzindo a taxa de incidentes repetidos em 61%
  • Criei políticas de escalonamento PagerDuty e runbooks para 9 serviços críticos de pagamento, reduzindo o tempo de escalonamento até resolução em 43%

Junior Site Reliability Engineer | Stripe | San Francisco, CA | Ago 2020 - Mai 2021

  • Gerenciei clusters Kubernetes executando 120 pods em 3 ambientes, mantendo 99,97% de taxa de sucesso no agendamento de pods
  • Construí dashboards Grafana monitorando 1.800 SLIs para a API de pagamentos, adotados como visão padrão de monitoramento por 4 times de engenharia
  • Automatizei o gerenciamento de certificados SSL para 340 serviços internos usando cert-manager e Let's Encrypt, eliminando 100% das tarefas manuais de renovação de certificados
  • Escrevi scripts Python para analisar métricas de plantão, identificando que 68% das páginas originavam de 4 serviços, levando a melhorias direcionadas de confiabilidade

Educação

Mestrado em Ciências, Ciência da Computação | University of Washington | Dez 2020

  • Dissertação: "Load Shedding Adaptativo em Sistemas Distribuídos Sob Falhas em Cascata"

Bacharel em Ciências, Engenharia da Computação | University of Michigan | Mai 2018


Exemplo de Currículo de Senior Site Reliability Engineer / Staff SRE (8+ Anos)

Marcus Chen New York, NY | [email protected] | github.com/marcuschen LinkedIn: linkedin.com/in/marcuschen


Resumo

Staff Site Reliability Engineer com 11 anos de experiência projetando arquiteturas de confiabilidade para plataformas que atendem mais de 500 milhões de usuários. Construí infraestrutura de observabilidade em escala Google, liderei a migração da Uber para arquitetura ativa-ativa multi-região e estabeleci práticas de SRE que reduziram os custos anuais de incidentes em US$ 4,2 milhões. Experiência direta gerenciando times de SRE de 8-14 engenheiros com orçamentos superiores a US$ 12 milhões em infraestrutura de nuvem.


Certificações

  • Google Cloud Professional Cloud DevOps Engineer | Google Cloud | 2024
  • Certified Kubernetes Security Specialist (CKS) | Cloud Native Computing Foundation (CNCF) | 2023
  • Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2021
  • AWS Certified DevOps Engineer - Professional | Amazon Web Services | 2020

Habilidades Técnicas

  • Linguagens: Go, Python, Java, C++, Rust, Bash, HCL
  • Arquitetura de Plataforma: Ativa-ativa multi-região, arquitetura baseada em células, service mesh (Istio, Linkerd), edge computing
  • Containers e Orquestração: Kubernetes, Docker, Nomad, Helm, Kustomize, Crossplane, operadores customizados
  • Observabilidade: Prometheus, Thanos, Cortex, Grafana, Datadog, Jaeger, OpenTelemetry, Honeycomb, PagerDuty
  • Infraestrutura como Código: Terraform, Pulumi, CDK, Ansible, SaltStack
  • Plataformas de Nuvem: AWS, GCP, Azure (multi-cloud)
  • CI/CD e GitOps: ArgoCD, Spinnaker, Tekton, Jenkins, GitHub Actions
  • Bancos de Dados: PostgreSQL, CockroachDB, Cassandra, Redis, Vitess, TiDB
  • Chaos Engineering: Gremlin, Chaos Monkey, Litmus, frameworks customizados de injeção de falhas

Experiência

Staff Site Reliability Engineer | Uber | New York, NY | Jan 2022 - Presente

  • Arquitetei deploy ativo-ativo multi-região em 4 regiões AWS (us-east-1, us-west-2, eu-west-1, ap-southeast-1) atendendo 130 milhões de usuários ativos mensais com 99,995% de disponibilidade
  • Liderei um time de 12 SREs na migração de 420 microsserviços para uma arquitetura baseada em células, reduzindo o raio de impacto de qualquer falha única de 100% dos usuários para menos de 8%
  • Projetei e construí um operador Kubernetes customizado em Go que gerencia 3.400 CRDs para deploys canary automatizados, reduzindo deploys com falha em 78% (de 14 por mês para 3)
  • Implementei autoscaling ciente de custos em 18.000 pods Kubernetes que ajusta dinamicamente contagens de réplicas com base em demanda em tempo real, folga de SLO e preços de instâncias spot, economizando US$ 3,6 milhões anualmente
  • Construí plataforma centralizada de SLO monitorando 2.800 indicadores de nível de serviço em 420 serviços, com alertas automatizados de burn-rate de error budget que preveniram 23 potenciais paralisações em 2024
  • Estabeleci estrutura de comando de incidentes e treinei 45 engenheiros de plantão em 6 times, reduzindo MTTR de P1 de 52 minutos para 11 minutos e MTTR de P2 de 3,2 horas para 38 minutos
  • Escrevi manual interno de SRE adotado por mais de 200 engenheiros, cobrindo melhores práticas de plantão, templates de runbook e processos de revisão pós-incidente
  • Liderei exercícios trimestrais de chaos engineering injetando falhas em partições de rede, paralisações de zona e failovers de banco de dados, alcançando 96% de taxa de recuperação automatizada nos cenários testados

Senior Site Reliability Engineer | Google | Mountain View, CA | Mar 2018 - Dez 2021

  • Gerenciei infraestrutura de observabilidade para o Compute Engine do Google Cloud, processando 2,4 bilhões de métricas por minuto em 28 data centers com 99,999% de durabilidade de dados
  • Projetei caminho de migração Borgmon-para-Prometheus para 14 times internos, reduzindo a complexidade de configuração de monitoramento em 62% enquanto mantinha latência de alerta abaixo de um segundo
  • Construí sistema automatizado de planejamento de capacidade que previa demanda de computação para mais de 90 tipos de máquinas GCE com 97% de precisão em horizontes de 6 meses, influenciando diretamente US$ 180 milhões em aquisições anuais de hardware
  • Desenvolvi sistema de qualificação de releases baseado em SLO que controlava deploys para 8 serviços críticos de infraestrutura, capturando 34 regressões de confiabilidade antes que chegassem à produção
  • Reduzi toil de 58% para 31% do tempo do time ao longo de 18 meses construindo automação auto-recuperável para as 15 principais tarefas operacionais recorrentes, incluindo expansão automática de disco, substituição de nós não saudáveis e rotação de certificados
  • Liderei resposta cross-funcional a incidentes para 3 paralisações Sev-1 afetando clientes do Google Cloud, coordenando mais de 40 engenheiros e entregando análise de causa raiz em até 24 horas após a resolução
  • Mentorei 6 SREs júniores através do programa de onboarding de SRE do Google, com 5 promovidos ao nível sênior em 2 anos

Site Reliability Engineer | LinkedIn | Sunnyvale, CA | Jul 2015 - Fev 2018

  • Operei infraestrutura Kafka processando 4,2 trilhões de mensagens por dia em 1.800 brokers, mantendo 99,99% de garantia de entrega de mensagens
  • Migrei 23 serviços legados de bare metal para Kubernetes, reduzindo a frequência de deploy de quinzenal para 12 vezes por dia enquanto mantinha 99,97% de taxa de sucesso de deploy
  • Construí uma plataforma de teste de carga distribuído usando Gatling que simulava 2 milhões de conexões concorrentes, identificando 11 gargalos críticos antes dos picos anuais de tráfego do LinkedIn
  • Implementei failover automatizado de banco de dados para 14 clusters PostgreSQL, reduzindo o tempo de failover de 8 minutos (manual) para 22 segundos (automatizado) com zero perda de dados
  • Criei módulos Terraform para a infraestrutura Azure do LinkedIn, gerenciando 1.600 recursos com uma taxa de reutilização de módulos de 84% em 9 times de engenharia

Systems Engineer | Amazon Web Services | Seattle, WA | Jun 2013 - Jun 2015

  • Mantive a disponibilidade dos sistemas de gerenciamento de frota EC2 em 3 regiões, suportando 4 milhões de instâncias ativas com 99,99% de disponibilidade do plano de controle
  • Automatizei pipeline de patching de AMI que aplicava atualizações de segurança a 2.300 imagens base em até 48 horas após a publicação do CVE, reduzindo o tempo médio de deploy de patches em 71%
  • Construí dashboards de monitoramento no CloudWatch acompanhando 450 métricas operacionais para algoritmos de posicionamento EC2, permitindo decisões de capacidade orientadas por dados

Educação

Mestrado em Ciências, Ciência da Computação | Carnegie Mellon University | Mai 2013

  • Foco: Sistemas Distribuídos e Redes
  • Dissertação: "Consenso Tolerante a Falhas em Ambientes de Rede Heterogêneos"

Bacharel em Ciências, Ciência da Computação | Georgia Institute of Technology | Mai 2011


Erros Comuns em Currículos de SRE

1. Listar Ferramentas Sem Contexto

Errado: "Experiente com Kubernetes, Terraform, Prometheus, Grafana e AWS."

Certo: "Gerenciei 42 clusters Kubernetes executando 8.400 pods em 3 regiões AWS usando Terraform para provisionamento de infraestrutura e Prometheus + Grafana para observabilidade cobrindo 2.100 SLIs."

Ferramentas são commodities. Como você as usou e em que escala é o diferencial.

2. Descrever Atribuições em Vez de Conquistas

Errado: "Responsável por manter o uptime do sistema e responder a incidentes."

Certo: "Melhorei a disponibilidade do serviço de 99,93% para 99,99% implementando análise canary automatizada e rollouts progressivos, reduzindo o downtime anual voltado ao cliente de 6,1 horas para 52 minutos."

Todo SRE é "responsável pelo uptime". O que você especificamente fez para melhorá-lo?

3. Omitir Números de Disponibilidade

Errado: "Garanti alta disponibilidade de sistemas de produção."

Certo: "Mantive 99,995% de disponibilidade (26 minutos de downtime anual) para uma API de pagamentos processando 9.400 transações por segundo em 3 zonas de disponibilidade."

"Alta disponibilidade" sem um número não significa nada. Um gerente de contratação na Stripe lê 99,995% e imediatamente entende o rigor de engenharia necessário.

4. Afirmações Vagas sobre Resposta a Incidentes

Errado: "Participei de rotação de plantão e resposta a incidentes."

Certo: "Liderei a resposta a incidentes para 34 incidentes de produção em 12 meses, reduzindo o MTTR de P1 de 41 minutos para 13 minutos implementando correlação diagnóstica automatizada entre métricas Prometheus, logs Loki e traces Jaeger."

Participação em plantão é esperada. Melhoria mensurável em resultados de incidentes é o que te faz ser contratado.

5. Ignorar o Impacto de Negócio do Trabalho de Confiabilidade

Errado: "Otimizei custos de infraestrutura de nuvem."

Certo: "Implementei automação de right-sizing e estratégias de instâncias spot em 14.000 instâncias EC2, reduzindo o gasto anual com AWS em US$ 2,1 milhões (23%) enquanto mantinha SLOs de latência p99."

O trabalho de SRE tem impacto em valor monetário. Calcule-o e coloque em seu currículo.

6. Tratar SRE como um Cargo de Operações

Errado: "Gerenciei servidores, implantei aplicações e monitorei sistemas."

Certo: "Escrevi um operador Kubernetes em Go que automatizou validação de deploy para 85 serviços, executando 12 verificações automatizadas (limites de recursos, readiness probes, configuração de PDB) por deploy e bloqueando 23 releases mal configuradas no Q3 de 2025."

SRE é uma disciplina de engenharia de software. Seu currículo deve refletir que você escreve código para resolver problemas de confiabilidade, não que você opera sistemas manualmente.

7. Linguagem Ausente de SLO/SLI/Error Budget

Errado: "Monitorei desempenho de aplicações e saúde do sistema."

Certo: "Defini SLOs para 28 serviços usando o modelo de error budget, com alertas automatizados de burn-rate que congelavam deploys não críticos quando serviços consumiam mais de 75% de seu error budget de 30 dias, prevenindo 8 potenciais incidentes voltados ao cliente no Q4 de 2025."

Se seu currículo não menciona SLOs, SLIs ou error budgets, gerentes de contratação em empresas que praticam SRE presumirão que você não trabalhou em uma organização madura de confiabilidade.


Palavras-Chave ATS para Currículos de Site Reliability Engineer

Observabilidade e Monitoramento

Prometheus, Grafana, Datadog, New Relic, OpenTelemetry, Jaeger, Honeycomb, Splunk, ELK Stack, Loki, Thanos, Cortex, tracing distribuído, agregação de logs, coleta de métricas

Infraestrutura e Nuvem

Kubernetes, Docker, Terraform, Pulumi, AWS, GCP, Azure, EC2, EKS, GKE, S3, Lambda, CloudFormation, Helm, Kustomize, Crossplane, infraestrutura como código

Automação e CI/CD

ArgoCD, Spinnaker, Jenkins, GitHub Actions, GitLab CI, Ansible, Chef, Puppet, SaltStack, Flux, Tekton, GitOps, gerenciamento de configuração

Gerenciamento de Incidentes e Confiabilidade

PagerDuty, Opsgenie, resposta a incidentes, MTTR, MTTD, SLO, SLI, SLA, error budget, revisão pós-incidente, postmortem sem culpados, plantão, runbook, política de escalonamento

Programação e Sistemas

Python, Go, Bash, Java, Rust, Linux, TCP/IP, DNS, load balancing, service mesh, Istio, Envoy, Linkerd, chaos engineering, Gremlin, planejamento de capacidade, ajuste de desempenho


Perguntas Frequentes

Devo listar minha experiência de plantão em um currículo de SRE?

Sim, mas enquadre-a em torno de resultados em vez de participação. Em vez de "participei de rotação de plantão 24/7", escreva "atuei como plantonista principal para 6 serviços de produção processando em média 14.000 requisições por segundo, mantendo 99,98% de disponibilidade durante turnos de plantão e reduzindo a taxa de escalonamento em 34% através de melhor automação de runbooks." Gerentes de contratação esperam experiência de plantão. O que eles procuram é se você tornou o plantão melhor para a próxima pessoa.

Quais certificações são mais importantes para cargos de SRE?

As três certificações mais frequentemente mencionadas em vagas de SRE são o Certified Kubernetes Administrator (CKA) da CNCF (US$ 445, exame prático baseado em desempenho), o Google Cloud Professional Cloud DevOps Engineer (US$ 200, valida práticas de SRE no GCP) e o AWS Certified DevOps Engineer Professional. O HashiCorp Certified Terraform Associate (US$ 70,50, valida proficiência em infraestrutura como código) também é cada vez mais valorizado, especialmente para cargos que enfatizam automação de infraestrutura. Certificações importam mais para candidatos de nível júnior e pleno. No nível staff, seu portfólio de projetos e experiência em design de sistemas têm mais peso.

Como escrevo um currículo de SRE sem ter tido o título de SRE em meu histórico de trabalho?

Muitos SREs fazem transição de cargos de engenharia de software, administração de sistemas ou DevOps. Foque em conquistas transferíveis: se você escreveu automação que reduziu trabalho manual, isso é redução de toil. Se você configurou monitoramento e alertas, isso é observabilidade. Se você melhorou a confiabilidade de deploys, isso é release engineering. Reenquadre seus bullets usando terminologia de SRE: "Implementei monitoramento Prometheus para 12 serviços e defini SLOs que reduziram falhas não detectadas de 8 por mês para 1" é um bullet válido de SRE mesmo que seu título fosse "Software Engineer" ou "DevOps Engineer".

Devo incluir uma seção de habilidades ou integrar ferramentas em meus bullets de experiência?

Ambos. Inclua uma seção dedicada de Habilidades Técnicas agrupadas por categoria (Observabilidade, Infraestrutura, Automação, Nuvem) para que sistemas ATS possam analisar sua proficiência em ferramentas. Depois referencie ferramentas específicas dentro de seus bullets de experiência para fornecer contexto e escala. "Prometheus" em uma seção de habilidades confirma que você conhece a ferramenta. "Construí stack federado Prometheus ingerindo 18 milhões de métricas por segundo em 4 regiões" em sua seção de experiência prova que você a operou em escala de produção.

Qual deve ser o tamanho de um currículo de SRE sênior?

Para engenheiros com mais de 8 anos de experiência, duas páginas é apropriado e muitas vezes esperado. Cargos de SRE sênior e staff exigem demonstrar amplitude (arquitetura multi-região, liderança de time, resposta cross-funcional a incidentes) e profundidade (sistemas específicos que você projetou, resultados quantificados que entregou). Cortar um currículo sênior para uma página tipicamente significa remover a evidência que justifica a remuneração sênior. Foque a primeira página em seu cargo mais recente e de maior impacto, e use a segunda página para experiência anterior e educação. Cada linha deve conter um número ou uma especificidade técnica; remova qualquer coisa que não contenha.


Fontes

  1. Bureau of Labor Statistics. "Network and Computer Systems Administrators: Occupational Outlook Handbook." U.S. Department of Labor. https://www.bls.gov/ooh/computer-and-information-technology/network-and-computer-systems-administrators.htm
  2. Bureau of Labor Statistics. "Occupational Employment and Wages, May 2023: 15-1244 Network and Computer Systems Administrators." https://www.bls.gov/oes/2023/may/oes151244.htm
  3. Glassdoor. "Site Reliability Engineer: Average Salary & Pay Trends 2025." https://www.glassdoor.com/Salaries/site-reliability-engineer-salary-SRCH_KO0,25.htm
  4. Google. "Implementing SLOs." Site Reliability Engineering Workbook. https://sre.google/workbook/implementing-slos/
  5. Google. "Error Budget Policy." Site Reliability Engineering Workbook. https://sre.google/workbook/error-budget-policy/
  6. Cloud Native Computing Foundation (CNCF). "Certified Kubernetes Administrator (CKA)." https://www.cncf.io/certification/cka/
  7. Google Cloud. "Professional Cloud DevOps Engineer Certification." https://cloud.google.com/learn/certification
  8. HashiCorp. "Terraform Associate Certification." https://developer.hashicorp.com/certifications/infrastructure-automation
  9. Rootly. "How SREs Use Prometheus and Grafana to Crush MTTR in 2025." https://rootly.com/sre/how-sres-use-prometheus-and-grafana-to-crush-mttr-in-2025
  10. Coursera. "Preparing for Google Cloud Certification: Cloud DevOps Engineer Professional Certificate." https://www.coursera.org/professional-certificates/sre-devops-engineer-google-cloud
See what ATS software sees Your resume looks different to a machine. Free check — PDF, DOCX, or DOC.
Check My Resume

Tags

exemplos de currículo site reliability engineer
Blake Crosley — Former VP of Design at ZipRecruiter, Founder of ResumeGeni

About Blake Crosley

Blake Crosley spent 12 years at ZipRecruiter, rising from Design Engineer to VP of Design. He designed interfaces used by 110M+ job seekers and built systems processing 7M+ resumes monthly. He founded ResumeGeni to help candidates communicate their value clearly.

12 Years at ZipRecruiter VP of Design 110M+ Job Seekers Served

Ready to build your resume?

Create an ATS-optimized resume that gets you hired.

Get Started Free