Guia de carta de apresentação para Site Reliability Engineer — Exemplos e dicas de redação

O salário médio de um SRE nos EUA varia de $154.000 a $200.000 dependendo da fonte e nível de experiência, com engenheiros de ponta ganhando mais de $250.000 anualmente [1][2]. O Google, que originou a disciplina SRE, descreve a função como exigindo "um conjunto incomum de habilidades — resolução de problemas, programação, design de sistemas, redes e internos do SO" [3]. O Upskilling Report de 2022 constatou que 40% das organizações consideram um framework operacional SRE essencial [4]. Uma carta de apresentação que demonstre pensamento sistêmico, capacidade de resposta a incidentes e mentalidade de engenharia de confiabilidade eleva imediatamente sua candidatura.

Pontos-chave

  • Lidere com uma métrica de confiabilidade: percentual de disponibilidade (99,99%), melhoria na resposta a incidentes, redução de MTTR ou resultado de eliminação de toil
  • Demonstre a mentalidade SRE: equilibrar confiabilidade com velocidade de features através de error budgets, SLOs e SLIs
  • Nomeie tecnologias específicas: Kubernetes, Terraform, Prometheus, Grafana, PagerDuty, Datadog, serviços AWS/GCP/Azure
  • Mostre que você escreve código — SREs são engenheiros de software que resolvem problemas de confiabilidade
  • Descreva seu processo de gestão de incidentes: detecção, resposta, mitigação, revisão pós-incidente

Como abrir sua carta de apresentação

Estratégia 1: A conquista de confiabilidade

"Como Site Reliability Engineer na Cloudflare, mantenho a infraestrutura que serve 20% de todas as requisições HTTP na internet — 57 milhões de requisições por segundo no pico. Nos últimos dois anos, minhas contribuições para nosso pipeline automatizado de canary-deployment e sistema de detecção de anomalias melhoraram a disponibilidade da nossa rede edge de 99,97% para 99,995%, eliminando aproximadamente $3,2 milhões em custos anuais de impacto ao cliente."

Estratégia 2: O gancho de resposta a incidentes

"Durante uma falha em cascata que derrubou 40% do nosso cluster Kubernetes de produção às 3 da manhã — resultado de um HPA mal configurado — coordenei a resposta ao incidente em três fusos horários, identifiquei a causa raiz via análise de queries Prometheus em 11 minutos, e implementei a mitigação que restaurou o serviço em 23 minutos após a detecção."

Estratégia 3: A eliminação de toil

"Reduzi o toil operacional da nossa equipe SRE na Shopify de 42% do tempo de engenharia para 14%, construindo uma plataforma self-service que automatiza provisionamento de bancos de dados, rotação de certificados e criação de ambientes. A plataforma — construída com Terraform, Go e um operador Kubernetes customizado — eliminou 1.200 operações manuais por trimestre."

Parágrafos do corpo

Parágrafo 1: Habilidades técnicas de infraestrutura

Exemplo: "Gerencio uma plataforma Kubernetes de 340 nós em três regiões AWS, servindo 2.800 microsserviços com throughput combinado de 180.000 requisições por segundo. Construí o stack de observabilidade com Prometheus, Thanos para armazenamento de longo prazo e dashboards Grafana com alertas baseados em SLO."

Parágrafo 2: Práticas de engenharia de confiabilidade

Exemplo: "Implementei nosso framework de SLO em 45 serviços de produção, definindo SLIs para disponibilidade, latência e taxa de erro, com error budgets que automaticamente bloqueiam deployments quando um serviço está abaixo de seu objetivo de confiabilidade."

Parágrafo 3: Gestão de incidentes e cultura

Exemplo: "Redesenhei nosso processo de gestão de incidentes usando os princípios do livro SRE do Google. Desde a implementação, nosso MTTD melhorou de 8,4 para 2,1 minutos, e nosso MTTR diminuiu de 47 para 18 minutos em todos os incidentes P1."

Exemplos completos de cartas de apresentação

Exemplo nível inicial

Dear [Hiring Manager],

During my Computer Science degree at the University of Illinois, I became fascinated by site reliability engineering. I built a multi-region Kubernetes deployment on AWS for my senior thesis and completed Google's SRE Foundations course.

My thesis project — a distributed event-processing system handling 10,000 events per second — taught me production reliability fundamentals. I implemented Prometheus monitoring with custom SLIs and built Terraform modules for reproducible infrastructure.

During my internship at LinkedIn, I contributed to the SRE team's Kubernetes migration, writing Terraform modules for 14 production services.

Sincerely, Kevin Zhang

Exemplo nível médio

Dear [Hiring Manager],

In five years as a Site Reliability Engineer — the last three at Stripe — I have built infrastructure supporting $1 trillion in annual payment volume with 99.999% API availability. My core contribution is the deployment-safety system I built in Go, preventing 23 production incidents over two years.

I lead incident response for payments-critical services as incident commander for 40+ P1/P2 incidents.

Best regards, Amelia Rodriguez

Exemplo nível sênior

Dear [Hiring Manager],

In ten years of reliability engineering — the last four as Staff SRE at Google — I have defined reliability standards for products serving 2 billion daily active users. I lead the SRE team responsible for Cloud Spanner's global infrastructure with 99.999% availability.

Regards, David Park

Erros comuns

  1. Descrever SRE como administração de sistemas: SRE é uma disciplina de engenharia de software
  2. Omitir experiência com SLO e error budget: Conceitos fundamentais de SRE [3]
  3. Listar ferramentas sem contexto arquitetural: Descreva os sistemas que construiu
  4. Ignorar gestão de incidentes: Todo SRE participa de on-call
  5. Não demonstrar capacidade de programação: SREs escrevem código
  6. Confundir monitoramento com observabilidade
  7. Escrever muito longo: Mantenha abaixo de 400 palavras

FAQ

Qual a diferença entre SRE e DevOps? SRE é frequentemente descrito como uma implementação específica dos princípios DevOps, com práticas prescritas — SLOs, error budgets, toil budgets e post-mortems sem culpa.

Preciso de experiência em programação para ser SRE? Sim. Os critérios de contratação SRE do Google exigem programação, algoritmos e design de sistemas [3].

Quais certificações importam? Certificações cloud (AWS Solutions Architect, GCP Professional Cloud Architect) e Kubernetes (CKA, CKAD).

Devo mencionar experiência on-call? Absolutamente. On-call é uma responsabilidade central de SRE.


Fontes: [1] Glassdoor, "Site Reliability Engineer: Average Salary & Pay Trends 2025," 2025. [2] Levels.fyi, "Site Reliability Engineer Salary," 2025. [3] Google, "Hiring Site Reliability Engineers," Google Research, 2024. [4] Harnham, "Site Reliability Engineering: The Next Big Career Wave To Ride," 2024.

See what ATS software sees Your resume looks different to a machine. Free check — PDF, DOCX, or DOC.
Check My Resume

Tags

guia de carta de apresentação site reliability engineer
Blake Crosley — Former VP of Design at ZipRecruiter, Founder of ResumeGeni

About Blake Crosley

Blake Crosley spent 12 years at ZipRecruiter, rising from Design Engineer to VP of Design. He designed interfaces used by 110M+ job seekers and built systems processing 7M+ resumes monthly. He founded ResumeGeni to help candidates communicate their value clearly.

12 Years at ZipRecruiter VP of Design 110M+ Job Seekers Served

Ready to build your resume?

Create an ATS-optimized resume that gets you hired.

Get Started Free