Fähigkeiten für Site Reliability Engineers — Technische und soziale Kompetenzen für Ihren Lebenslauf
Eine DevOps-Arbeitsmarktanalyse 2025 mit 832 Stellenangeboten ergab, dass SRE-Positionen ein Mediangehalt von 177.500 USD erzielen, wobei 70,6 % dezentrale Arbeit anbieten — was sie zu einer der bestbezahlten und flexibelsten Infrastrukturdisziplinen in der Technologie macht [1]. Google prägte den Begriff „Site Reliability Engineering" 2003, und zwei Jahrzehnte später hat sich die Rolle von einer Google-spezifischen Praxis zu einer Standardfunktion in Organisationen entwickelt, wobei das BLS weiterhin starke Nachfrage nach softwareorientierten Infrastrukturrollen bis 2034 prognostiziert [2].
Kernaussagen
- Kubernetes, Observability-Plattformen (Datadog, Grafana) und Infrastructure-as-Code (Terraform) sind die drei am häufigsten gelisteten technischen Anforderungen in SRE-Stellenanzeigen und erscheinen in über 70 % der Ausschreibungen [1].
- Vorfallsteuerung — die Fähigkeit, strukturierte Vorfallreaktion zu leiten und gleichzeitig Interessengruppen zu informieren — ist durchgehend die am höchsten bewertete soziale Kompetenz bei SRE-Einstellungen [3].
- Platform Engineering, FinOps (Cloud-Kostenoptimierung) und KI-gestützter Betrieb (AIOps) stellen die am schnellsten wachsenden SRE-Kompetenzanforderungen für 2026 dar [1].
- Die typische SRE-Gehaltsspanne reicht von 136.604 USD (25. Perzentil) bis 213.272 USD (75. Perzentil), mit Senior-Positionen bei großen Technologieunternehmen über 300.000 USD Gesamtvergütung [4].
Technische Fähigkeiten (Fachkompetenzen)
-
Linux-Systemadministration — Tiefes Verständnis von Linux-Interna: Prozesssteuerung, Speicherverwaltung, Dateisystemhierarchie, systemd, Kernel-Tuning und Leistungsdiagnostik mit strace, perf, vmstat und iostat [3].
-
Kubernetes und Container-Orchestrierung — Bereitstellung, Skalierung und Fehlerbehebung containerisierter Anwendungen auf Kubernetes-Clustern. Verständnis von Pods, Deployments, Services, Ingress, Persistent Volumes, RBAC und Custom Resource Definitions [1].
-
Infrastructure as Code (Terraform, Pulumi) — Definition und Verwaltung von Cloud-Infrastruktur durch deklarativen Code. Terraform-Module schreiben, Zustandsdateien verwalten, Drift-Erkennung implementieren und wiederverwendbare Infrastrukturmuster aufbauen [1].
-
Observability (Metriken, Logs, Traces) — Umfassende Observability implementieren mit Datadog, Grafana/Prometheus, New Relic oder Splunk. SLI/SLO-Dashboards entwerfen, Alarmierungsschwellen konfigurieren, verteiltes Tracing mit Jaeger oder OpenTelemetry implementieren [3].
-
Programmierung (Python, Go, Bash) — SREs schreiben Code zur Automatisierung von Routinearbeit, zum Bau interner Werkzeuge und zur Erstellung selbstheilender Systeme. Produktionsreife Programmierfähigkeiten werden erwartet [5].
-
Cloud-Plattformen (AWS, GCP, Azure) — Architektur und Betrieb von Produktionsinfrastruktur auf öffentlichen Cloud-Plattformen. Verständnis von Compute, Netzwerk, Speicher, Datenbanken und Sicherheitsdiensten [1].
-
CI/CD-Pipeline-Engineering — Aufbau und Wartung von Bereitstellungspipelines mit Jenkins, GitHub Actions, GitLab CI, ArgoCD oder Spinnaker. Progressive Bereitstellungsstrategien implementieren: Blue-Green-Deployments, Canary-Releases und Feature-Flags [3].
-
Netzwerkgrundlagen — Verständnis von TCP/IP, DNS, HTTP/gRPC, Lastverteilungsalgorithmen, CDN-Konfiguration, TLS/SSL und Netzwerkfehlerbehebung [5].
-
Datenbankzuverlässigkeit — Verwaltung von Datenbanksystemen (PostgreSQL, MySQL, MongoDB, Redis) in Produktion: Replikation, Backup/Wiederherstellung, Abfrageleistungsoptimierung, Verbindungspool-Steuerung und Failover-Verfahren [3].
-
Vorfallsteuerung und Bereitschaftsdienst — Strukturierte Vorfallreaktion mit Rahmenwerken wie dem PagerDuty-Vorfallsteuerungsprozess. Schweregrade klassifizieren, Helfer koordinieren, Statusaktualisierungen kommunizieren, Ursachenanalyse durchführen und schuldfreie Nachbesprechungen verfassen [5].
-
Konfigurationsmanagement (Ansible, Chef, Puppet) — Automatisierung der Serverkonfiguration, Paketverwaltung und Compliance-Durchsetzung über Serverflotten [3].
-
Chaos Engineering — Gezielte Einführung von Ausfällen in Produktionssysteme zur Überprüfung von Resilienz-Hypothesen mit Werkzeugen wie Gremlin, Chaos Monkey oder LitmusChaos [5].
Soziale Kompetenzen
-
Vorfallführung — Übernahme der Einsatzleiterrolle bei Produktionsausfällen: Ruhe bewahren, Untersuchungsaufgaben delegieren, parallele Arbeitsströme steuern und schwierige Entscheidungen (Rollback vs. Vorwärtsreparatur) unter Zeitdruck treffen [3].
-
Schuldfreie Nachbesprechungsmoderation — Leitung von Nachbesprechungen, die sich auf systemische Ursachen statt auf individuelle Schuld konzentrieren. Umsetzbare Abhilfemaßnahmen extrahieren und eine Organisationskultur aufbauen, die Vorfälle als Lernchancen behandelt [5].
-
Teamübergreifende Zusammenarbeit — SREs befinden sich an der Schnittstelle von Entwicklung, Betrieb und Produkt. SLO-Vereinbarungen mit Produktteams aufbauen und Fehlerbudget-Richtlinien verhandeln erfordert diplomatische Fähigkeiten über Organisationsgrenzen hinweg [3].
-
Kommunikation unter Stress — Klare, präzise Statusaktualisierungen während Vorfällen für Zielgruppen von technischen Kolleginnen bis zur Geschäftsleitung [5].
-
Systemdenken — Verstehen, wie sich Änderungen in einem Dienst durch ein verteiltes System kaskadieren. Fehlermodi antizipieren und Single Points of Failure identifizieren [3].
-
Eintreten für Zuverlässigkeit — Technische Führungskräfte überzeugen, in Zuverlässigkeitsarbeit zu investieren. Zuverlässigkeitsinvestitionen als Umsatzschutz statt als Kosten darstellen [5].
-
Dokumentation und Wissensteilung — Klare Runbooks, Architecture Decision Records, Bereitschaftsübergaben und Betriebsanleitungen verfassen [3].
-
Kontinuierliche Verbesserungsmentalität — Systematisches Identifizieren und Beseitigen von Routinearbeit (Toil) — repetitive, automatisierbare Betriebsarbeit [5].
Aufkommende gefragte Fähigkeiten
- Platform Engineering — Interne Entwicklerplattformen (IDPs) aufbauen mit Backstage, Crossplane und Port [1].
- FinOps (Cloud-Kostenoptimierung) — Cloud-Ausgaben analysieren und optimieren mit Kubecost, CloudHealth oder nativen Dashboards [1].
- AIOps und intelligente Alarmierung — Maschinelles Lernen zur Reduzierung von Alarmrauschen und Automatisierung von Runbook-Ausführung einsetzen [1].
- eBPF für Observability — Kernel-Level-Observability ohne Code-Instrumentierung mit Cilium, Pixie und Falco [3].
- Lieferkettensicherheit — SBOM-Generierung, Sigstore-Artefaktsignierung und SLSA-Rahmenwerk-Compliance implementieren [1].
Fähigkeiten nach Karrierestufe
Einstieg (0–2 Jahre)
- Linux-Grundlagen, grundlegendes Kubernetes, eine Programmiersprache (Python oder Go), Cloud-Grundlagen, Monitoring-Grundlagen, betreute Bereitschaftsteilnahme
Mittelstufe (3–5 Jahre)
- Terraform-Modulentwicklung, Kubernetes-Clusteradministration, verteiltes System-Debugging, SLO-Definition und Fehlerbudget-Nachverfolgung, eigenständiger Bereitschaftsdienst, CI/CD-Pipeline-Design, Betreuung von Nachwuchskräften
Senior (6+ Jahre)
- Zuverlässigkeitsarchitektur, Platform-Engineering-Strategie, organisationsweite SRE-Praxisentwicklung, FinOps, Kommunikation auf Führungsebene bei schwerwiegenden Vorfällen, Teamaufbau und -bindung
Zertifizierungen
- Google Cloud Professional Cloud DevOps Engineer — Validiert Fähigkeiten in Bereitstellungspipelines, Dienstüberwachung und Vorfallsteuerung auf GCP [5].
- AWS Certified DevOps Engineer — Professional — Prüft verteilte Systeme auf AWS, CI/CD-Pipelines und Sicherheitsautomatisierung [1].
- Certified Kubernetes Administrator (CKA) — Validiert praktische Kubernetes-Clusteradministration. Die angesehenste Kubernetes-Qualifikation der Branche [1].
- HashiCorp Certified: Terraform Associate — Belegt Infrastructure-as-Code-Kompetenz mit Terraform [1].
- DevOps Institute SRE Foundation — Deckt SRE-Prinzipien, -Praktiken und -Kultur ab [6].
- DevOps Institute SRE Practitioner — Fortgeschrittene Zertifizierung für großskalige SRE-Implementierung [6].
- Linux Foundation Certified System Administrator (LFCS) — Validiert Linux-Administrationsfähigkeiten [3].
Häufig gestellte Fragen
Was ist der Unterschied zwischen SRE und DevOps?
DevOps ist eine kulturelle Philosophie zur Zusammenarbeit von Entwicklung und Betrieb. SRE ist eine konkrete Umsetzung von DevOps-Prinzipien mit spezifischen Praktiken: SLIs/SLOs, Fehlerbudgets, Toil-Messung und dem Prinzip, dass SREs mindestens 50 % ihrer Zeit für Engineering-Projekte aufwenden [5].
Brauche ich einen Informatikabschluss, um SRE zu werden?
Ein Informatikabschluss ist hilfreich, aber nicht erforderlich. Viele erfolgreiche SREs kommen aus der Systemadministration, Softwareentwicklung oder DevOps. Entscheidend ist nachweisbare Kompetenz in Linux, Programmierung, Cloud-Plattformen und Produktionssystembetrieb [3].
Welche Programmiersprache ist für SRE am wichtigsten?
Go und Python sind die beiden am meisten geschätzten Sprachen. Go wird umfangreich für leistungskritische Werkzeuge und Produktionsdienste eingesetzt. Python ist Standard für Automatisierung und Datenanalyse [5].
Welches Gehalt kann ich als SRE erwarten?
Branchendaten zeigen SRE-Gehälter von 136.604 USD (25. Perzentil) bis 213.272 USD (75. Perzentil), mit einem Median um 170.000–200.000 USD [4]. Senior-SREs bei großen Technologieunternehmen verdienen 250.000–400.000 USD+ Gesamtvergütung [1].
Wie gelingt der Übergang von der Systemadministration zu SRE?
Programmierfähigkeiten aufbauen (zuerst Python, dann Go), Kubernetes und Terraform erlernen, Zuverlässigkeit mit SLIs/SLOs messen und Routinearbeit in Ihrer aktuellen Rolle automatisieren. Die CKA-Zertifizierung anstreben und ein Portfolio von Automatisierungsprojekten aufbauen [3].
Erstellen Sie Ihren ATS-optimierten Site-Reliability-Engineer-Lebenslauf mit Resume Geni — der Einstieg ist kostenlos.
Quellenangaben: [1] DevOps Projects HQ, „DevOps Job Market Report H2 2025" [2] U.S. Bureau of Labor Statistics, „Software Developers, Quality Assurance Analysts, and Testers" [3] Jobicy, „Site Reliability Engineer Career Path, Skills & Advice 2025" [4] Glassdoor, „Site Reliability Engineer Salary" [5] Google, „Site Reliability Engineering" [6] DevOps Institute, „SRE Foundation Certification"