Guia de carta de apresentação para Site Reliability Engineer — Exemplos e dicas de redação
O salário médio de um SRE nos EUA varia de $154.000 a $200.000 dependendo da fonte e nível de experiência, com engenheiros de ponta ganhando mais de $250.000 anualmente [1][2]. O Google, que originou a disciplina SRE, descreve a função como exigindo "um conjunto incomum de habilidades — resolução de problemas, programação, design de sistemas, redes e internos do SO" [3]. O Upskilling Report de 2022 constatou que 40% das organizações consideram um framework operacional SRE essencial [4]. Uma carta de apresentação que demonstre pensamento sistêmico, capacidade de resposta a incidentes e mentalidade de engenharia de confiabilidade eleva imediatamente sua candidatura.
Pontos-chave
- Lidere com uma métrica de confiabilidade: percentual de disponibilidade (99,99%), melhoria na resposta a incidentes, redução de MTTR ou resultado de eliminação de toil
- Demonstre a mentalidade SRE: equilibrar confiabilidade com velocidade de features através de error budgets, SLOs e SLIs
- Nomeie tecnologias específicas: Kubernetes, Terraform, Prometheus, Grafana, PagerDuty, Datadog, serviços AWS/GCP/Azure
- Mostre que você escreve código — SREs são engenheiros de software que resolvem problemas de confiabilidade
- Descreva seu processo de gestão de incidentes: detecção, resposta, mitigação, revisão pós-incidente
Como abrir sua carta de apresentação
Estratégia 1: A conquista de confiabilidade
"Como Site Reliability Engineer na Cloudflare, mantenho a infraestrutura que serve 20% de todas as requisições HTTP na internet — 57 milhões de requisições por segundo no pico. Nos últimos dois anos, minhas contribuições para nosso pipeline automatizado de canary-deployment e sistema de detecção de anomalias melhoraram a disponibilidade da nossa rede edge de 99,97% para 99,995%, eliminando aproximadamente $3,2 milhões em custos anuais de impacto ao cliente."
Estratégia 2: O gancho de resposta a incidentes
"Durante uma falha em cascata que derrubou 40% do nosso cluster Kubernetes de produção às 3 da manhã — resultado de um HPA mal configurado — coordenei a resposta ao incidente em três fusos horários, identifiquei a causa raiz via análise de queries Prometheus em 11 minutos, e implementei a mitigação que restaurou o serviço em 23 minutos após a detecção."
Estratégia 3: A eliminação de toil
"Reduzi o toil operacional da nossa equipe SRE na Shopify de 42% do tempo de engenharia para 14%, construindo uma plataforma self-service que automatiza provisionamento de bancos de dados, rotação de certificados e criação de ambientes. A plataforma — construída com Terraform, Go e um operador Kubernetes customizado — eliminou 1.200 operações manuais por trimestre."
Parágrafos do corpo
Parágrafo 1: Habilidades técnicas de infraestrutura
Exemplo: "Gerencio uma plataforma Kubernetes de 340 nós em três regiões AWS, servindo 2.800 microsserviços com throughput combinado de 180.000 requisições por segundo. Construí o stack de observabilidade com Prometheus, Thanos para armazenamento de longo prazo e dashboards Grafana com alertas baseados em SLO."
Parágrafo 2: Práticas de engenharia de confiabilidade
Exemplo: "Implementei nosso framework de SLO em 45 serviços de produção, definindo SLIs para disponibilidade, latência e taxa de erro, com error budgets que automaticamente bloqueiam deployments quando um serviço está abaixo de seu objetivo de confiabilidade."
Parágrafo 3: Gestão de incidentes e cultura
Exemplo: "Redesenhei nosso processo de gestão de incidentes usando os princípios do livro SRE do Google. Desde a implementação, nosso MTTD melhorou de 8,4 para 2,1 minutos, e nosso MTTR diminuiu de 47 para 18 minutos em todos os incidentes P1."
Exemplos completos de cartas de apresentação
Exemplo nível inicial
Dear [Hiring Manager],
During my Computer Science degree at the University of Illinois, I became fascinated by site reliability engineering. I built a multi-region Kubernetes deployment on AWS for my senior thesis and completed Google's SRE Foundations course.
My thesis project — a distributed event-processing system handling 10,000 events per second — taught me production reliability fundamentals. I implemented Prometheus monitoring with custom SLIs and built Terraform modules for reproducible infrastructure.
During my internship at LinkedIn, I contributed to the SRE team's Kubernetes migration, writing Terraform modules for 14 production services.
Sincerely, Kevin Zhang
Exemplo nível médio
Dear [Hiring Manager],
In five years as a Site Reliability Engineer — the last three at Stripe — I have built infrastructure supporting $1 trillion in annual payment volume with 99.999% API availability. My core contribution is the deployment-safety system I built in Go, preventing 23 production incidents over two years.
I lead incident response for payments-critical services as incident commander for 40+ P1/P2 incidents.
Best regards, Amelia Rodriguez
Exemplo nível sênior
Dear [Hiring Manager],
In ten years of reliability engineering — the last four as Staff SRE at Google — I have defined reliability standards for products serving 2 billion daily active users. I lead the SRE team responsible for Cloud Spanner's global infrastructure with 99.999% availability.
Regards, David Park
Erros comuns
- Descrever SRE como administração de sistemas: SRE é uma disciplina de engenharia de software
- Omitir experiência com SLO e error budget: Conceitos fundamentais de SRE [3]
- Listar ferramentas sem contexto arquitetural: Descreva os sistemas que construiu
- Ignorar gestão de incidentes: Todo SRE participa de on-call
- Não demonstrar capacidade de programação: SREs escrevem código
- Confundir monitoramento com observabilidade
- Escrever muito longo: Mantenha abaixo de 400 palavras
FAQ
Qual a diferença entre SRE e DevOps? SRE é frequentemente descrito como uma implementação específica dos princípios DevOps, com práticas prescritas — SLOs, error budgets, toil budgets e post-mortems sem culpa.
Preciso de experiência em programação para ser SRE? Sim. Os critérios de contratação SRE do Google exigem programação, algoritmos e design de sistemas [3].
Quais certificações importam? Certificações cloud (AWS Solutions Architect, GCP Professional Cloud Architect) e Kubernetes (CKA, CKAD).
Devo mencionar experiência on-call? Absolutamente. On-call é uma responsabilidade central de SRE.
Fontes: [1] Glassdoor, "Site Reliability Engineer: Average Salary & Pay Trends 2025," 2025. [2] Levels.fyi, "Site Reliability Engineer Salary," 2025. [3] Google, "Hiring Site Reliability Engineers," Google Research, 2024. [4] Harnham, "Site Reliability Engineering: The Next Big Career Wave To Ride," 2024.