Anschreiben-Leitfaden für Site Reliability Engineers — Beispiele und Schreibtipps

Das durchschnittliche SRE-Gehalt in den USA liegt je nach Quelle und Erfahrungsniveau zwischen 154.000 und 200.000 US-Dollar, wobei Spitzeningenieure über 250.000 US-Dollar jährlich verdienen [1][2]. Google, das die SRE-Disziplin begründet hat, beschreibt die Rolle als eine, die „eine ungewöhnliche Kombination von Fähigkeiten erfordert — Problemlösung, Programmierung, Systemdesign, Netzwerke und OS-Interna" [3]. Der Upskilling Report 2022 ergab, dass 40 % der Organisationen ein SRE-Betriebsframework als unverzichtbar betrachten [4], dennoch berichten Unternehmen von erheblichen Schwierigkeiten bei der Einstellung qualifizierter Kandidaten — insbesondere auf Juniorebene. Ein Anschreiben, das Systemdenken, Incident-Response-Fähigkeiten und eine Reliability-Engineering-Mentalität demonstriert, hebt Ihre Bewerbung sofort hervor.

Wichtige Erkenntnisse

  • Führen Sie mit einer Zuverlässigkeitskennzahl: Verfügbarkeitsprozentsatz (99,99 %), Incident-Response-Verbesserung, MTTR-Reduktion oder Toil-Eliminierungsergebnis.
  • Demonstrieren Sie die SRE-Denkweise: Ausbalancierung von Zuverlässigkeit und Feature-Geschwindigkeit durch Error Budgets, SLOs und SLIs.
  • Benennen Sie spezifische Technologien: Kubernetes, Terraform, Prometheus, Grafana, PagerDuty, Datadog, AWS/GCP/Azure-Dienste.
  • Zeigen Sie, dass Sie Code schreiben — SREs sind Softwareingenieure, die Zuverlässigkeitsprobleme lösen, keine Systemadministratoren mit neuem Titel.
  • Beschreiben Sie Ihren Incident-Management-Prozess: Erkennung, Reaktion, Mitigation, Post-Incident-Review und systemische Prävention.

So eröffnen Sie Ihr Anschreiben

SRE-Personalverantwortliche bewerten Kandidaten nach ihrer Fähigkeit, zuverlässige Systeme zu entwerfen, operative Arbeit zu automatisieren und effektiv auf Incidents zu reagieren. Ihre Eröffnung muss alle drei Fähigkeiten signalisieren.

Strategie 1: Die Zuverlässigkeitsleistung

„Als Site Reliability Engineer bei Cloudflare betreue ich die Infrastruktur, die 20 % aller HTTP-Anfragen im Internet bedient — 57 Millionen Anfragen pro Sekunde in Spitzenzeiten. In den letzten zwei Jahren haben meine Beiträge zu unserer automatisierten Canary-Deployment-Pipeline und unserem Anomalie-Erkennungssystem die Verfügbarkeit unseres Edge-Netzwerks von 99,97 % auf 99,995 % verbessert und geschätzte 3,2 Millionen US-Dollar an jährlichen Kundenauswirkungskosten eliminiert. Das Ziel Ihres SRE-Teams, Zuverlässigkeit im großen Maßstab aufzubauen, deckt sich direkt mit meiner Erfahrung."

Strategie 2: Der Incident-Response-Hook

„Während eines kaskadierenden Ausfalls, der 40 % unseres Produktions-Kubernetes-Clusters um 3 Uhr morgens lahmlegte — ausgelöst durch einen fehlerhaft konfigurierten HPA, der eine Ressourcenerschöpfungsspirale verursachte — koordinierte ich die Incident-Response über drei Zeitzonen hinweg, identifizierte die Ursache durch Prometheus-Query-Analyse innerhalb von 11 Minuten und implementierte die Mitigation, die den Dienst innerhalb von 23 Minuten nach Erkennung wiederherstellte. Wichtiger noch: Ich leitete das Post-Incident-Review, das vier systemische Verbesserungen hervorbrachte, einschließlich automatisierter HPA-Leitplanken, die seitdem drei ähnliche Incidents verhindert haben."

Strategie 3: Die Toil-Eliminierung

„Ich reduzierte den operativen Toil für unser SRE-Team bei Shopify von 42 % der Ingenieurzeit auf 14 %, indem ich eine Self-Service-Plattform aufbaute, die Datenbankbereitstellung, Zertifikatsrotation und Umgebungserstellung automatisiert. Diese Plattform — gebaut mit Terraform, Go und einem benutzerdefinierten Kubernetes Operator — eliminierte 1.200 manuelle Operationen pro Quartal und befreite das Team, sich auf Reliability Engineering statt auf ticketgesteuerten Betrieb zu konzentrieren."

Hauptabsätze, die Ihren Wert beweisen

Absatz 1: Technische Infrastruktur-Fähigkeiten

SREs benötigen tiefgreifende Expertise in Programmierung, Algorithmen, Systemdesign, Netzwerken und OS-Interna [3]. Strukturieren Sie diesen Absatz rund um Ihre Infrastruktur-Fähigkeiten:

  • Container-Orchestrierung: Kubernetes (Deployment-Strategien, Ressourcenmanagement, Custom Operators, Service Mesh), Docker, containerd.
  • Infrastructure as Code: Terraform, Pulumi, CloudFormation, Ansible — mit spezifischer State-Management- und Modul-Design-Erfahrung.
  • Observability: Prometheus, Grafana, Datadog, New Relic, OpenTelemetry — Aufbau von Dashboards, Alerts und SLO-basiertem Monitoring.
  • Cloud-Plattformen: AWS (EKS, EC2, RDS, Lambda, CloudWatch), GCP (GKE, Cloud Run, BigQuery), Azure (AKS, App Service).
  • Programmierung: Go, Python, Bash — für den Aufbau von Automatisierungstools, Operators und Reliability-Tooling.

Beispiel: „Ich verwalte eine Kubernetes-Plattform mit 340 Knoten über drei AWS-Regionen, die 2.800 Microservices mit einem kombinierten Durchsatz von 180.000 Anfragen pro Sekunde bedient. Ich habe den Observability-Stack mit Prometheus, Thanos für Langzeitspeicherung und Grafana-Dashboards mit SLO-basiertem Alerting aufgebaut — und dabei schwellenwertbasierte Alerts, die über 200 False Positives pro Woche generierten, durch Burn-Rate-Alerts ersetzt, die Alert Fatigue um 87 % reduzierten."

Absatz 2: Reliability-Engineering-Praktiken

Beispiel: „Ich habe unser SLO-Framework über 45 Produktionsdienste implementiert, Service-Level-Indikatoren für Verfügbarkeit, Latenz und Fehlerrate definiert, mit Error Budgets, die Deployments automatisch blockieren, wenn ein Dienst unter seinem Zuverlässigkeitsziel liegt. Dieses Framework — gebaut auf Prometheus Recording Rules und einem benutzerdefinierten Go-Dienst, der Error-Budget-Burn-Rates berechnet — ist zum primären Mechanismus für die Ausbalancierung von Feature-Geschwindigkeit und Zuverlässigkeit geworden. 2024 verhinderte es 14 Deployments, die während Perioden erhöhter Fehlerraten in die Produktion gelangt wären."

Absatz 3: Incident Management und Kultur

Beispiel: „Ich habe unseren Incident-Management-Prozess nach den Prinzipien aus Googles SRE-Buch neu gestaltet: strukturierte Incident-Rollen (IC, Communications Lead, Operations Lead), standardisierte Schweregrade gekoppelt an SLO-Auswirkungen und blameless Post-Incident-Reviews mit verpflichtenden, in Jira verfolgten Maßnahmen. Seit der Implementierung dieses Frameworks hat sich unsere Mean Time to Detect (MTTD) von 8,4 Minuten auf 2,1 Minuten verbessert, und unsere Mean Time to Resolve (MTTR) ist über alle P1-Incidents von 47 Minuten auf 18 Minuten gesunken."

So recherchieren Sie das Unternehmen

  1. Lesen Sie deren Engineering-Blog: Unternehmen wie Google, Netflix, Uber und Datadog veröffentlichen detaillierte Beiträge über ihre SRE-Praktiken, Incident-Response-Prozesse und Infrastrukturarchitektur.
  2. Prüfen Sie deren Status-Page-Historie: Öffentliche Statusseiten zeigen Incident-Häufigkeit, Lösungszeiten und Kommunikationsqualität — alles Indikatoren für SRE-Reife.
  3. Sehen Sie sich deren Open-Source-Projekte an: Viele SRE-orientierte Unternehmen tragen zu Observability-, Deployment- und Reliability-Tooling-Projekten bei.
  4. Verstehen Sie deren Maßstab: Die Anzahl der Dienste, Anfragen pro Sekunde und Infrastrukturgröße bestimmt die Komplexität der SRE-Rolle.
  5. Suchen Sie nach SRE-spezifischen Stellendetails: Erwähnt die Ausschreibung SLOs, Error Budgets und Toil-Reduktion — oder handelt es sich um eine umbenannte Sysadmin-Rolle? Passen Sie Ihr Schreiben entsprechend an.

Abschlusstechniken, die zum Handeln anregen

Starkes Abschlussbeispiel: „Ich würde mich freuen, die Gelegenheit zu besprechen, wie meine Erfahrung im Aufbau zuverlässiger verteilter Systeme — von Kubernetes-Plattform-Engineering bis hin zu SLO-gesteuerten Reliability-Frameworks — die SRE-Praxis von [Unternehmen] stärken könnte. Ich habe zu Open-Source-Observability-Tooling beigetragen und betreibe einen technischen Blog unter janesmith.dev/sre über Incident-Response-Muster und Reliability Engineering. Ich bin für ein technisches Gespräch zu Ihrer Verfügung bereit."

Vollständige Anschreiben-Beispiele

Beispiel für Berufseinsteiger

Dear [Hiring Manager],

During my Computer Science degree at the University of Illinois, I became fascinated by the question that defines site reliability engineering: how do you build systems that stay up when everything is trying to take them down? That question led me to build a multi-region Kubernetes deployment on AWS for my senior thesis, implement chaos-engineering experiments using Gremlin, and complete Google's SRE Foundations course. I am applying for the SRE I position at [Company].

My thesis project — a distributed event-processing system handling 10,000 events per second — taught me the fundamentals of production reliability. I implemented Prometheus monitoring with custom SLIs for availability (99.9% target) and latency (P99 < 500ms), built Terraform modules for reproducible infrastructure provisioning across two AWS regions, and designed a runbook-driven incident-response process. When I deliberately injected failures using Gremlin (pod kills, network latency, CPU stress), the system maintained its SLO targets — and the failures I could not handle became the basis for my reliability-improvement roadmap.

During my internship at LinkedIn, I contributed to the SRE team's Kubernetes migration, writing Terraform modules for 14 production services and building a Grafana dashboard that tracked deployment-success rates and rollback frequency. I also participated in on-call rotations (with senior engineer supervision), responding to three production alerts and documenting root causes in post-incident reviews.

I am drawn to [Company]'s SRE team because your commitment to error-budget-driven development and blameless post-mortems reflects the reliability culture I want to build my career within. I would welcome the opportunity to discuss how my skills could contribute to your team.

Sincerely, Kevin Zhang

Beispiel für mittlere Karrierestufe

Dear [Hiring Manager],

In five years as a Site Reliability Engineer — the last three at Stripe — I have built and maintained the infrastructure supporting $1 trillion in annual payment volume with 99.999% API availability. My work spans Kubernetes platform engineering, observability system design, and incident-response leadership, and I am applying for the Senior SRE position at [Company] because your scale and reliability requirements match the challenges I find most compelling.

My core technical contribution at Stripe is the deployment-safety system I built in Go, which analyzes deployment metrics in real-time — error rates, latency percentiles, and business-metric anomalies — and automatically rolls back deployments that degrade service health. This system has prevented 23 production incidents over two years and reduced our deployment-related error-budget consumption by 64%. I also redesigned our on-call rotation from a reactive, ticket-driven model to a proactive reliability-engineering model, where 60% of on-call time is spent on automation and reliability improvements rather than incident response.

Beyond infrastructure, I lead incident response for our payments-critical services. I have served as incident commander for 40+ P1/P2 incidents, authored our incident-severity classification framework (tied to SLO impact and customer blast radius), and implemented a structured post-incident review process that has produced 180 follow-up action items — 94% completed within their target timeline. I also mentor three junior SREs and have presented at SREcon on deployment-safety patterns for financial infrastructure [5].

I would welcome the opportunity to discuss how my experience building reliable payment infrastructure could contribute to [Company]'s SRE mission.

Best regards, Amelia Rodriguez

Beispiel für Seniorebene

Dear [Hiring Manager],

In ten years of infrastructure and reliability engineering — the last four as a Staff SRE at Google — I have defined the reliability standards for products serving 2 billion daily active users. I am exploring principal SRE roles at [Company] because your investment in building a world-class reliability practice at rapid scale presents the kind of organizational and technical challenge that defines the next phase of my career.

At Google, I lead the SRE team responsible for Cloud Spanner's global infrastructure — a distributed database serving millions of queries per second across five continents with 99.999% availability. My contributions include designing the automated capacity-planning system that forecasts resource needs 90 days ahead with 95% accuracy, building the canary-analysis framework that evaluates 200+ metrics before promoting any configuration change to production, and authoring the disaster-recovery playbooks that have been validated through 12 quarterly DR drills with zero data loss.

My leadership extends beyond individual systems. I co-authored Google's internal SRE Maturity Model — a framework used by 40+ SRE teams to assess and improve their reliability practices across dimensions including SLO adoption, toil measurement, incident management, and capacity planning. I also designed the SRE onboarding curriculum that has trained 200+ new SREs, and I serve on the hiring committee that has evaluated 1,000+ SRE candidates. I have published at SREcon, USENIX, and in Google's SRE Workbook series, and I hold both AWS Solutions Architect Professional and GCP Professional Cloud Architect certifications.

I would welcome a confidential conversation about how my experience building reliability engineering practices at global scale could accelerate [Company]'s infrastructure vision.

Regards, David Park

Häufige Fehler im Anschreiben

  1. SRE als Systemadministration beschreiben: SRE ist eine Softwareentwicklungsdisziplin. Wenn Ihr Anschreiben wie ein Sysadmin-Lebenslauf klingt — „Server verwaltet", „Updates installiert", „Dashboards überwacht" — positionieren Sie sich für die falsche Rolle.
  2. SLO- und Error-Budget-Erfahrung weglassen: Dies sind grundlegende SRE-Konzepte. Sie nicht zu erwähnen, deutet darauf hin, dass Sie das SRE-Framework nicht verinnerlicht haben, das bei Google entstanden ist und zum Industriestandard geworden ist [3].
  3. Tools ohne architektonischen Kontext auflisten: „Erfahren mit Kubernetes, Terraform und Prometheus" ist eine Standardaussage. Beschreiben Sie die Systeme, die Sie gebaut haben: Clustergrößen, Dienstanzahl, Anfragedurchsatz und Zuverlässigkeitsziele.
  4. Incident Management ignorieren: Jeder SRE nimmt an On-Call und Incident Response teil. Das Nichterwähnen Ihrer Incident-Response-Erfahrung — oder schlimmer, das Thema zu vermeiden — wirft Fragen zu Ihrer Bereitschaft auf.
  5. Programmierfähigkeiten nicht demonstrieren: SREs schreiben Code — Automatisierungstools, Custom Operators, Reliability Services, Runbook-Automatisierung. Bei Gehältern von 154.000 bis 250.000+ US-Dollar [1][2] erwarten Arbeitgeber starke Software-Engineering-Fähigkeiten.
  6. Monitoring mit Observability verwechseln: Dashboards einrichten ist Monitoring. Systeme aufbauen, die verwertbare Einblicke in das Verhalten verteilter Systeme liefern — durch Metriken, Logs, Traces und SLO-basiertes Alerting — ist Observability. Zeigen Sie Letzteres.
  7. Zu lang schreiben: Halten Sie es unter 400 Wörtern. SREs schätzen das Signal-Rausch-Verhältnis — sowohl in ihren Monitoring-Systemen als auch in ihrer Kommunikation.

Wichtige Erkenntnisse

  • Führen Sie mit einer Zuverlässigkeitskennzahl: Verfügbarkeitsprozentsatz, MTTR-Verbesserung, Toil-Reduktion oder Incident-Prevention-Ergebnis.
  • Demonstrieren Sie die SRE-Denkweise: SLOs, Error Budgets und Ausbalancierung von Zuverlässigkeit und Feature-Geschwindigkeit.
  • Zeigen Sie, dass Sie Code schreiben, nicht nur Tools konfigurieren.
  • Beschreiben Sie Ihre Incident-Management-Erfahrung: Erkennung, Reaktion, Post-Incident-Review.
  • Benennen Sie spezifische Infrastrukturtechnologien mit Maßstab und architektonischem Kontext.
  • Recherchieren Sie die Zuverlässigkeitsreife des Unternehmens und passen Sie Ihr Schreiben entsprechend an.

Erstellen Sie Ihren ATS-optimierten Site Reliability Engineer Lebenslauf mit Resume Geni — der Einstieg ist kostenlos.

FAQ

Was ist der Unterschied zwischen SRE und DevOps? SRE wird oft als eine spezifische Implementierung von DevOps-Prinzipien beschrieben. Während DevOps eine kulturelle und organisatorische Philosophie ist, schreibt SRE spezifische Praktiken vor — SLOs, Error Budgets, Toil Budgets und blameless Post-Mortems — die Zuverlässigkeit operationalisieren. Betonen Sie in Ihrem Anschreiben die SRE-spezifischen Praktiken, die Sie implementiert haben.

Brauche ich Programmiererfahrung, um SRE zu werden? Ja. Googles SRE-Einstellungskriterien erfordern ausdrücklich Programmierung, Algorithmen und Systemdesign-Fähigkeiten [3]. Die meisten SRE-Teams erwarten Kompetenz in mindestens einer Systemsprache (Go, Python, Java) und Scripting (Bash). Programmierfähigkeit unterscheidet SRE von traditionellem Betrieb.

Welche Zertifizierungen sind für SRE-Rollen relevant? Cloud-Zertifizierungen (AWS Solutions Architect, GCP Professional Cloud Architect) und Kubernetes-Zertifizierungen (CKA, CKAD) werden geschätzt. Nachweisbare Projekterfahrung hat jedoch mehr Gewicht als Zertifizierungen allein.

Wie wechsle ich von Software Engineering zu SRE? Betonen Sie Ihre bestehenden Engineering-Fähigkeiten und jede Erfahrung im Produktionsbetrieb: On-Call-Rotationen, Incident Response, Deployment-Pipelines oder Performance-Optimierung. Rahmen Sie den Wechsel als eine Vertiefung des Fokus auf die Zuverlässigkeits- und Betriebsaspekte der Systeme, die Sie bereits bauen.

Sollte ich On-Call-Erfahrung erwähnen? Absolut. On-Call ist eine zentrale SRE-Verantwortung. Beschreiben Sie Ihre Rotationsstruktur, Ihren Incident-Response-Prozess und alle Verbesserungen, die Sie zur Reduzierung von Alert Fatigue oder Verbesserung der Reaktionszeiten vorgenommen haben.

Wie technisch sollte mein Anschreiben sein? Sehr technisch. SRE-Personalverantwortliche sind in der Regel Senior Engineers, die technische Tiefe bewerten können. Verwenden Sie spezifische Metriken, benennen Sie genaue Technologien und beschreiben Sie Architekturentscheidungen. Vermeiden Sie vage Formulierungen wie „mit Cloud-Diensten gearbeitet".

Was, wenn mein Unternehmen keine SRE-Terminologie verwendet? Viele Organisationen praktizieren SRE-Prinzipien ohne den Titel. Wenn Sie Verfügbarkeitsziele definiert, Monitoring und Alerting implementiert, operative Arbeit automatisiert oder Incident Response geleitet haben, haben Sie SRE-Erfahrung — formulieren Sie sie in SRE-Sprache.


Quellen: [1] Glassdoor, "Site Reliability Engineer: Average Salary & Pay Trends 2025," 2025. [2] Levels.fyi, "Site Reliability Engineer Salary," 2025. [3] Google, "Hiring Site Reliability Engineers," Google Research, 2024. [4] Harnham, "Site Reliability Engineering: The Next Big Career Wave To Ride," 2024. [5] Coursera, "Site Reliability Engineer Salary Guide 2025," 2025.

See what ATS software sees Your resume looks different to a machine. Free check — PDF, DOCX, or DOC.
Check My Resume

Tags

site reliability engineer anschreiben leitfaden
Blake Crosley — Former VP of Design at ZipRecruiter, Founder of ResumeGeni

About Blake Crosley

Blake Crosley spent 12 years at ZipRecruiter, rising from Design Engineer to VP of Design. He designed interfaces used by 110M+ job seekers and built systems processing 7M+ resumes monthly. He founded ResumeGeni to help candidates communicate their value clearly.

12 Years at ZipRecruiter VP of Design 110M+ Job Seekers Served

Ready to build your resume?

Create an ATS-optimized resume that gets you hired.

Get Started Free