Przykłady CV Site Reliability Engineer, które zapewniają rozmowy kwalifikacyjne w 2026 roku
Bureau of Labor Statistics prognozuje około 14 300 rocznych wakatów dla administratorów sieci i systemów komputerowych (SOC 15-1244) do 2034 roku — kategoria zawodowa obejmująca Site Reliability Engineerów. Jednak samo stanowisko SRE oferuje wynagrodzenie znacznie powyżej mediany kategorii wynoszącej 96 800 USD. Glassdoor podaje medianę całkowitego wynagrodzenia dla SRE w 2025 roku na poziomie 200 000 USD, a starsi inżynierowie w firmach takich jak Google, Netflix i Uber regularnie przekraczają 350 000 USD całkowitego wynagrodzenia. Różnica między bazą BLS a realnymi pensjami SRE odzwierciedla fundamentalną prawdę: firmy płacą premię za inżynierów, którzy potrafią zmierzyć swój wpływ na dostępność, opóźnienia i reagowanie na incydenty, a Twoje CV jest miejscem, w którym ta kwantyfikacja się zaczyna.
Poniżej znajdują się trzy kompletne przykłady CV SRE, od poziomu początkującego po zaawansowany, zbudowane na rzeczywistych narzędziach, prawdziwych certyfikatach i metrykach, których menedżerowie ds. rekrutacji faktycznie szukają.
Kluczowe wnioski
- Każdy punkt zaczynaj od liczby. SRE to dyscyplina napędzana metrykami. Menedżerowie ds. rekrutacji w Google, Datadog i Cloudflare skanują w poszukiwaniu procentów dostępności, redukcji opóźnień i MTTR incydentów, zanim przeczytają cokolwiek innego.
- Nazwij swój stos obserwowalności wprost. "Doświadczenie w monitorowaniu" nic nie znaczy. "Zbudowałem dashboardy Prometheus + Grafana śledzące 4 200 SLI w 38 mikroserwisach" mówi menedżerowi ds. rekrutacji dokładnie, co możesz robić od pierwszego dnia.
- Oddziel infrastrukturę jako kod od ogólnego DevOps. Moduły Terraform, stacki Pulumi i kompozycje Crossplane to umiejętności odrębne od konfiguracji pipeline'ów CI/CD. Wymień je w osobnej sekcji.
- Kwantyfikuj wyniki zarządzania incydentami, nie tylko uczestnictwo. "Rotacja dyżurów" to obowiązek służbowy. "Zredukowałem MTTR P1 z 47 minut do 12 minut, wdrażając zautomatyzowane runbooki w PagerDuty" to sygnał rekrutacyjny.
- Certyfikaty mają realną wagę dla SRE. Certified Kubernetes Administrator (CKA) od CNCF, Google Cloud Professional Cloud DevOps Engineer oraz AWS Certified DevOps Engineer Professional to trzy certyfikaty, które menedżerowie ds. rekrutacji najczęściej wymieniają w ogłoszeniach o pracę dla SRE.
Czego szukają menedżerowie ds. rekrutacji
Metryki dostępności i niezawodności
Każdy opis stanowiska SRE zawiera wariację "utrzymywanie wysokiej dostępności". CV, które dostają odpowiedź, tłumaczą to na konkrety. Menedżerowie ds. rekrutacji chcą widzieć, że poprawiłeś dostępność usługi z 99,95% do 99,99%, co oznacza, że zredukowałeś roczny downtime z 4,4 godziny do 52 minut. Chcą wiedzieć, czy definiujesz SLO używając modelu error budget spopularyzowanego przez Google w ich książkach o SRE, czy traktujesz dostępność jako abstrakcyjny cel. Zgodnie z SRE Workbook Google, SLO 99,9% dla usługi otrzymującej 3 miliony żądań w ciągu czterech tygodni przekłada się na error budget wynoszący 3 000 dopuszczalnych awarii. Jeśli Twoje CV pokazuje, że operacjonalizowałeś error budgety, aby zrównoważyć tempo dostarczania funkcji z niezawodnością, mówisz językiem, który menedżerowie ds. rekrutacji rozumieją.
Obserwowalność i reagowanie na incydenty
Observability Survey 2025 wykazało, że 70% firm obecnie używa zarówno Prometheusa, jak i OpenTelemetry do swoich potrzeb monitorowania. Menedżerowie ds. rekrutacji oczekują, że kandydaci na SRE wykażą biegłość w całym stosie obserwowalności: zbieranie metryk za pomocą Prometheusa lub Datadoga, wizualizacja w Grafanie, agregacja logów w Elastic Stack lub Loki, rozproszone śledzenie w Jaegerze lub Tempo oraz alerty kierowane przez PagerDuty lub Opsgenie. Najsilniejsze CV opisują pełny cykl życia incydentu. Prometheus wykrywa anomalię, dashboardy Grafany ujawniają promień rażenia, PagerDuty wzywa dyżurnego inżyniera, a przegląd po incydencie generuje punkt działania zapobiegający powtórzeniu. Menedżerowie ds. rekrutacji w firmach takich jak Uber i Cloudflare szczególnie szukają kandydatów, którzy mogą wskazać zredukowany Mean Time to Recovery (MTTR) oraz mniej powtarzających się incydentów.
Automatyzacja infrastruktury i redukcja toil
Redukcja toil jest definiującą misją SRE. Książka Google o SRE ustanawia, że zespoły SRE powinny spędzać nie więcej niż 50% czasu na operacyjnym toilu, a pozostały czas poświęcać pracy inżynierskiej redukującej przyszły toil. Twoje CV musi pokazywać tę filozofię w działaniu. Wymienianie Terraform, Ansible lub Pulumi jako umiejętności to minimum. Co odróżnia silnych kandydatów, to kwantyfikacja toil, który wyeliminowali: "Zautomatyzowałem 340 ręcznych kroków wdrożeniowych w 12-etapowy pipeline Terraform, redukując czas provisioningu z 6 godzin do 14 minut" lub "Napisałem skrypty auto-remediation w Pythonie, które rozwiązywały 73% alertów presji dysku bez interwencji człowieka." Infrastruktura jako kod, przepływy GitOps z ArgoCD lub Flux oraz systemy samonaprawiające się to konkretne dowody, które przesuwają CV na szczyt stosu.
Programowanie i projektowanie systemów
SRE to dyscyplina inżynierii oprogramowania, a nie rola operacyjna z nowym tytułem. Firmy takie jak Google, LinkedIn i Dropbox wymagają, aby kandydaci na SRE przeszli rozmowy kodowe na równi z rolami inżyniera oprogramowania. Twoje CV powinno wykazywać biegłość w programowaniu w Pythonie, Go lub Javie, z konkretnymi projektami pokazującymi myślenie na poziomie systemów. Budowa niestandardowego operatora Kubernetes w Go zarządzającego 200 CRD, napisanie frameworka chaos engineering uruchamiającego 45 zautomatyzowanych testów iniekcji awarii tygodniowo lub opracowanie wewnętrznego narzędzia CLI adoptowanego przez 150 inżynierów to rodzaje wpisów, które sygnalizują głębokość inżynierską, a nie operacyjną szerokość.
Przykład CV Site Reliability Engineer na poziomie początkującym (0-2 lata)
Jordan Nakamura San Francisco, CA | [email protected] | github.com/jnakamura LinkedIn: linkedin.com/in/jordannakamura
Podsumowanie
Site Reliability Engineer z praktycznym doświadczeniem w obsłudze klastrów Kubernetes i stacków monitorowania Prometheus na dużą skalę podczas staży w Cloudflare i Datadog. Zbudowałem zautomatyzowane narzędzia reagowania na incydenty, które zredukowały szum alertów o 38%. Certified Kubernetes Administrator (CKA) z mocnymi umiejętnościami programowania w Pythonie i Go.
Certyfikaty
- Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2025
- HashiCorp Certified: Terraform Associate (004) | HashiCorp | 2025
- AWS Certified Cloud Practitioner | Amazon Web Services | 2024
Umiejętności techniczne
- Języki: Python, Go, Bash, SQL
- Kontenery i orkiestracja: Kubernetes, Docker, Helm, Kustomize
- Obserwowalność: Prometheus, Grafana, Datadog, PagerDuty, ELK Stack
- Infrastruktura jako kod: Terraform, Ansible, CloudFormation
- Platformy chmurowe: AWS (EC2, EKS, S3, Lambda), GCP (GKE, Cloud Run)
- CI/CD: GitHub Actions, Jenkins, ArgoCD
- Systemy operacyjne: Linux (Ubuntu, CentOS, Amazon Linux)
Doświadczenie
Stażysta Site Reliability Engineer | Cloudflare | San Francisco, CA | Maj 2025 - Sie 2025
- Wdrożyłem exportery Prometheus w 14 brzegowych centrach danych, zwiększając pokrycie metryk z 62% do 94% usług produkcyjnych
- Napisałem 23 dashboardy Grafana śledzące opóźnienia żądań (p50, p95, p99) dla Cloudflare Workers, używane codziennie przez zespół 8 SRE
- Zautomatyzowałem rotację certyfikatów TLS dla 1 200 domen klientów używając skryptu Python zintegrowanego z wewnętrznym PKI Cloudflare, redukując ręczne ticketing odnowień o 89%
- Uczestniczyłem w cotygodniowych przeglądach incydentów i wniosłem 4 punkty działania po incydentach, które zostały wdrożone w produkcji
- Zredukowałem zmęczenie alertami dostrajając 47 reguł alertów Prometheus, zmniejszając fałszywie pozytywne wezwania o 38% w ciągu 8 tygodni
Stażysta inżynierii DevOps | Datadog | New York, NY | Maj 2024 - Sie 2024
- Zarządzałem konfiguracjami Terraform dla 6 środowisk AWS (dev, staging, produkcja w 2 regionach) obejmujących 340 zasobów
- Zbudowałem pipeline CI w GitHub Actions uruchamiający Terraform plan na każde pull request, wyłapując 12 problemów driftu infrastruktury zanim dotarły do produkcji
- Napisałem narzędzie CLI w Go do analizy logów, które parsowało 2,3 miliona linii logów na uruchomienie, redukując czas badania dla dyżurnych inżynierów z 25 minut do 4 minut
- Wniosłem wkład do wewnętrznego operatora Kubernetes zarządzającego 85 zasobami CronJob, zapewniając 99,7% wskaźnik sukcesu zaplanowanych zadań
Asystent dydaktyczny, Systemy rozproszone | UC Berkeley | Berkeley, CA | Sty 2024 - Maj 2024
- Pomagałem 180 studentom w zadaniach laboratoryjnych z rozproszonego konsensusu (Raft), frameworków RPC i odpornych na awarie magazynów klucz-wartość
- Opracowałem 3 zautomatyzowane skrypty oceniające w Pythonie, które oceniały implementacje MapReduce studentów wobec 45 przypadków testowych
Wykształcenie
Bachelor of Science, Informatyka | University of California, Berkeley | Maj 2025
- Istotne kursy: Systemy rozproszone, Systemy operacyjne, Sieci komputerowe, Systemy baz danych
- Projekt dyplomowy: Zbudowałem narzędzie chaos engineering wprowadzające partycje sieciowe i awarie opóźnień do 12-węzłowego klastra Kubernetes, walidując zachowanie samonaprawiające w 8 scenariuszach awarii
Przykład CV Site Reliability Engineer średniego szczebla (3-7 lat)
Priya Raghavan Seattle, WA | [email protected] | github.com/praghavan LinkedIn: linkedin.com/in/priyaraghavan
Podsumowanie
Site Reliability Engineer z 5-letnim doświadczeniem w budowaniu i skalowaniu platform obserwowalności, systemów reagowania na incydenty i automatyzacji infrastruktury w Netflix i Stripe. Poprawiłam dostępność platformy z 99,95% do 99,995% wspierając jednocześnie 3-krotny wzrost ruchu. Prowadziłam praktyki SRE dla infrastruktury płatności obsługującej 2,1 miliarda USD rocznego wolumenu transakcji.
Certyfikaty
- Google Cloud Professional Cloud DevOps Engineer | Google Cloud | 2024
- Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2023
- AWS Certified DevOps Engineer - Professional | Amazon Web Services | 2022
Umiejętności techniczne
- Języki: Python, Go, Java, Bash, HCL
- Kontenery i orkiestracja: Kubernetes, Docker, Istio, Envoy, Helm, Kustomize
- Obserwowalność: Prometheus, Thanos, Grafana, Datadog, Jaeger, OpenTelemetry, PagerDuty, Loki
- Infrastruktura jako kod: Terraform, Pulumi, Crossplane, Ansible
- Platformy chmurowe: AWS (EKS, RDS, DynamoDB, Lambda, CloudFront), GCP (GKE, BigQuery, Spanner)
- CI/CD i GitOps: ArgoCD, Spinnaker, Jenkins, GitHub Actions, Flux
- Bazy danych: PostgreSQL, Redis, Cassandra, DynamoDB
- Chaos Engineering: Gremlin, Chaos Monkey, Litmus
Doświadczenie
Senior Site Reliability Engineer | Netflix | Los Gatos, CA | Mar 2023 - Obecnie
- Zaprojektowałam platformę obserwowalności obsługującą 42 zespoły inżynierskie, przyjmującą 18 milionów metryk na sekundę przez federowany stos Prometheus + Thanos z 99,99% dostępnością zapytań
- Zredukowałam MTTR incydentów P1 z 34 minut do 9 minut budując zautomatyzowane runbooki diagnostyczne korelujące metryki, logi i trasy w 280 mikroserwisach
- Zaprojektowałam i wdrożyłam framework SLO przyjęty przez 38 usług, z politykami error budget automatycznie ograniczającymi wdrożenia, gdy usługi zużywały ponad 80% swojego miesięcznego budżetu
- Prowadziłam migrację 14 stanowych usług z EC2 do Kubernetes (EKS), kończąc przejście z zerowym downtime widocznym dla klienta w 3 strefach dostępności
- Zbudowałam model planowania pojemności w Pythonie, który przewidywał potrzeby obliczeniowe z 90-dniowym wyprzedzeniem z 94% dokładnością, oszczędzając 1,8 miliona USD rocznie na nadprowiantowanej infrastrukturze
- Zredukowałam obciążenie dyżurami automatyzując remediację dla 12 z 20 najczęstszych typów powtarzających się alertów, zmniejszając wezwania poza godzinami pracy z 23 tygodniowo do 6
Site Reliability Engineer | Stripe | San Francisco, CA | Cze 2021 - Lut 2023
- Utrzymywałam 99,999% dostępność dla infrastruktury przetwarzania płatności obsługującej 14 000 transakcji na sekundę w szczycie (Black Friday, Cyber Monday)
- Wdrożyłam rozproszone śledzenie z Jaegerem w 65 mikroserwisach, redukując średni czas identyfikacji przyczyny źródłowej z 22 minut do 4 minut dla incydentów związanych z opóźnieniami
- Napisałam moduły Terraform zarządzające 2 400 zasobami AWS w 4 regionach, z automatycznym wykrywaniem driftu, które wyłapało i skorygowało 89 rozbieżności konfiguracji w ciągu 12 miesięcy
- Opracowałam framework testowania obciążenia używając k6, który symulował 500 000 równoczesnych użytkowników, identyfikując 7 wąskich gardeł zanim wpłynęły na produkcję podczas szczytu ruchu świątecznego 2022
- Prowadziłam 28 przeglądów po incydentach i śledziłam 94% punktów działania do ukończenia w ciągu 14 dni, redukując wskaźnik powtarzających się incydentów o 61%
- Stworzyłam polityki eskalacji PagerDuty i runbooki dla 9 usług krytycznych dla płatności, redukując czas od eskalacji do rozwiązania o 43%
Junior Site Reliability Engineer | Stripe | San Francisco, CA | Sie 2020 - Maj 2021
- Zarządzałam klastrami Kubernetes uruchamiającymi 120 podów w 3 środowiskach, utrzymując 99,97% wskaźnik sukcesu harmonogramowania podów
- Zbudowałam dashboardy Grafana śledzące 1 800 SLI dla API płatności, przyjęte jako domyślny widok monitorowania przez 4 zespoły inżynierskie
- Zautomatyzowałam zarządzanie certyfikatami SSL dla 340 wewnętrznych usług używając cert-manager i Let's Encrypt, eliminując 100% ręcznych zadań odnowienia certyfikatów
- Napisałam skrypty Python do analizy metryk dyżurów, identyfikując że 68% wezwań pochodziło z 4 usług, prowadząc do ukierunkowanych poprawek niezawodności
Wykształcenie
Master of Science, Informatyka | University of Washington | Gru 2020
- Praca magisterska: "Adaptacyjne Load Shedding w Systemach Rozproszonych podczas Kaskadowych Awarii"
Bachelor of Science, Inżynieria komputerowa | University of Michigan | Maj 2018
Przykład CV Senior Site Reliability Engineer / Staff SRE (8+ lat)
Marcus Chen New York, NY | [email protected] | github.com/marcuschen LinkedIn: linkedin.com/in/marcuschen
Podsumowanie
Staff Site Reliability Engineer z 11-letnim doświadczeniem projektowania architektur niezawodności dla platform obsługujących ponad 500 milionów użytkowników. Zbudowałem infrastrukturę obserwowalności w skali Google, prowadziłem migrację Ubera do architektury active-active w wielu regionach i ustanowiłem praktyki SRE, które zredukowały roczne koszty incydentów o 4,2 miliona USD. Bezpośrednie doświadczenie w zarządzaniu zespołami SRE liczącymi 8-14 inżynierów z budżetami przekraczającymi 12 milionów USD w infrastrukturze chmurowej.
Certyfikaty
- Google Cloud Professional Cloud DevOps Engineer | Google Cloud | 2024
- Certified Kubernetes Security Specialist (CKS) | Cloud Native Computing Foundation (CNCF) | 2023
- Certified Kubernetes Administrator (CKA) | Cloud Native Computing Foundation (CNCF) | 2021
- AWS Certified DevOps Engineer - Professional | Amazon Web Services | 2020
Umiejętności techniczne
- Języki: Go, Python, Java, C++, Rust, Bash, HCL
- Architektura platformy: Active-active wieloregionowe, architektura komórkowa, service mesh (Istio, Linkerd), edge computing
- Kontenery i orkiestracja: Kubernetes, Docker, Nomad, Helm, Kustomize, Crossplane, niestandardowe operatory
- Obserwowalność: Prometheus, Thanos, Cortex, Grafana, Datadog, Jaeger, OpenTelemetry, Honeycomb, PagerDuty
- Infrastruktura jako kod: Terraform, Pulumi, CDK, Ansible, SaltStack
- Platformy chmurowe: AWS, GCP, Azure (multi-cloud)
- CI/CD i GitOps: ArgoCD, Spinnaker, Tekton, Jenkins, GitHub Actions
- Bazy danych: PostgreSQL, CockroachDB, Cassandra, Redis, Vitess, TiDB
- Chaos Engineering: Gremlin, Chaos Monkey, Litmus, niestandardowe frameworki iniekcji awarii
Doświadczenie
Staff Site Reliability Engineer | Uber | New York, NY | Sty 2022 - Obecnie
- Zaprojektowałem wdrożenie active-active w wielu regionach w 4 regionach AWS (us-east-1, us-west-2, eu-west-1, ap-southeast-1) obsługujące 130 milionów miesięcznie aktywnych użytkowników z 99,995% dostępnością
- Prowadziłem zespół 12 SRE przez migrację 420 mikroserwisów do architektury komórkowej, redukując promień rażenia dowolnej pojedynczej awarii ze 100% użytkowników do mniej niż 8%
- Zaprojektowałem i zbudowałem niestandardowy operator Kubernetes w Go, który zarządza 3 400 CRD dla zautomatyzowanych wdrożeń canary, redukując nieudane wdrożenia o 78% (z 14 miesięcznie do 3)
- Wdrożyłem autoskalowanie świadome kosztów w 18 000 podach Kubernetes, które dynamicznie dostosowuje liczbę replik na podstawie popytu w czasie rzeczywistym, zapasu SLO i cennika instancji spot, oszczędzając 3,6 miliona USD rocznie
- Zbudowałem scentralizowaną platformę SLO śledzącą 2 800 wskaźników poziomu usługi w 420 usługach, z zautomatyzowanymi alertami burn-rate error budget, które zapobiegły 23 potencjalnym awariom w 2024 roku
- Ustanowiłem strukturę dowodzenia incydentami i przeszkoliłem 45 dyżurnych inżynierów w 6 zespołach, redukując MTTR P1 z 52 minut do 11 minut i MTTR P2 z 3,2 godziny do 38 minut
- Napisałem wewnętrzny podręcznik SRE przyjęty przez ponad 200 inżynierów, obejmujący najlepsze praktyki dyżurów, szablony runbooków i procesy przeglądów po incydentach
- Prowadziłem kwartalne ćwiczenia chaos engineering wprowadzające awarie w partycje sieciowe, wyłączenia stref i failovery baz danych, osiągając 96% wskaźnik automatycznego odzyskiwania w testowanych scenariuszach
Senior Site Reliability Engineer | Google | Mountain View, CA | Mar 2018 - Gru 2021
- Zarządzałem infrastrukturą obserwowalności dla Compute Engine Google Cloud, przetwarzając 2,4 miliarda metryk na minutę w 28 centrach danych z 99,999% trwałością danych
- Zaprojektowałem ścieżkę migracji Borgmon-do-Prometheus dla 14 wewnętrznych zespołów, redukując złożoność konfiguracji monitorowania o 62% przy jednoczesnym utrzymaniu poniżej-sekundowego opóźnienia alertów
- Zbudowałem zautomatyzowany system planowania pojemności, który prognozował popyt obliczeniowy dla ponad 90 typów maszyn GCE z 97% dokładnością w horyzontach 6-miesięcznych, bezpośrednio wpływając na 180 milionów USD rocznych zakupów sprzętu
- Opracowałem system kwalifikacji wydań oparty na SLO, który kontrolował wdrożenia dla 8 krytycznych usług infrastruktury, wyłapując 34 regresje niezawodności zanim dotarły do produkcji
- Zredukowałem toil z 58% do 31% czasu zespołu w ciągu 18 miesięcy budując samonaprawiającą się automatyzację dla 15 najczęstszych powtarzających się zadań operacyjnych, w tym automatycznego rozszerzania dysku, zastępowania niezdrowych węzłów i rotacji certyfikatów
- Prowadziłem międzyfunkcyjną odpowiedź na incydenty dla 3 awarii Sev-1 dotykających klientów Google Cloud, koordynując ponad 40 inżynierów i dostarczając analizę przyczyn źródłowych w ciągu 24 godzin od rozwiązania
- Mentorowałem 6 młodszych SRE w programie onboardingowym SRE Google, z 5 promocjami do poziomu senior w ciągu 2 lat
Site Reliability Engineer | LinkedIn | Sunnyvale, CA | Lip 2015 - Lut 2018
- Obsługiwałem infrastrukturę Kafka przetwarzającą 4,2 biliona wiadomości dziennie w 1 800 brokerach, utrzymując 99,99% gwarancję dostarczenia wiadomości
- Zmigrowałem 23 usługi legacy z bare metal do Kubernetes, redukując częstotliwość wdrożeń z dwutygodniowej do 12 razy dziennie przy jednoczesnym utrzymaniu 99,97% wskaźnika sukcesu wdrożeń
- Zbudowałem rozproszoną platformę testowania obciążenia używając Gatling, która symulowała 2 miliony równoczesnych połączeń, identyfikując 11 krytycznych wąskich gardeł przed rocznymi szczytami ruchu LinkedIn
- Wdrożyłem zautomatyzowany failover bazy danych dla 14 klastrów PostgreSQL, redukując czas failover z 8 minut (ręcznie) do 22 sekund (automatycznie) z zerową utratą danych
- Stworzyłem moduły Terraform dla infrastruktury Azure LinkedIn, zarządzając 1 600 zasobami z wskaźnikiem ponownego wykorzystania modułów wynoszącym 84% w 9 zespołach inżynierskich
Systems Engineer | Amazon Web Services | Seattle, WA | Cze 2013 - Cze 2015
- Utrzymywałem dostępność systemów zarządzania flotą EC2 w 3 regionach, wspierając 4 miliony aktywnych instancji z 99,99% dostępnością płaszczyzny sterowania
- Zautomatyzowałem pipeline patchowania AMI, który aplikował aktualizacje bezpieczeństwa do 2 300 obrazów bazowych w ciągu 48 godzin od publikacji CVE, redukując średni czas wdrożenia patchy o 71%
- Zbudowałem dashboardy monitorujące w CloudWatch śledzące 450 metryk operacyjnych dla algorytmów rozmieszczenia EC2, umożliwiając decyzje dotyczące pojemności oparte na danych
Wykształcenie
Master of Science, Informatyka | Carnegie Mellon University | Maj 2013
- Specjalizacja: Systemy rozproszone i sieci
- Praca magisterska: "Odporny na awarie konsensus w heterogenicznych środowiskach sieciowych"
Bachelor of Science, Informatyka | Georgia Institute of Technology | Maj 2011
Częste błędy w CV SRE
1. Wymienianie narzędzi bez kontekstu
Źle: "Doświadczenie z Kubernetes, Terraform, Prometheus, Grafana i AWS."
Dobrze: "Zarządzałem 42 klastrami Kubernetes uruchamiającymi 8 400 podów w 3 regionach AWS używając Terraform do provisioningu infrastruktury i Prometheus + Grafana dla obserwowalności pokrywającej 2 100 SLI."
Narzędzia są towarem. Jak ich używałeś i w jakiej skali jest wyróżnikiem.
2. Opisywanie obowiązków zamiast osiągnięć
Źle: "Odpowiedzialny za utrzymanie czasu pracy systemu i reagowanie na incydenty."
Dobrze: "Poprawiłem dostępność usługi z 99,93% do 99,99% wdrażając zautomatyzowaną analizę canary i progresywne wdrożenia, redukując roczny downtime widoczny dla klienta z 6,1 godziny do 52 minut."
Każdy SRE jest "odpowiedzialny za uptime". Co konkretnie zrobiłeś, aby go poprawić?
3. Pomijanie liczb dostępności
Źle: "Zapewniłem wysoką dostępność systemów produkcyjnych."
Dobrze: "Utrzymywałem 99,995% dostępność (26 minut rocznego downtime) dla API płatności przetwarzającego 9 400 transakcji na sekundę w 3 strefach dostępności."
"Wysoka dostępność" bez liczby jest bezsensowna. Menedżer ds. rekrutacji w Stripe czyta 99,995% i natychmiast rozumie wymaganą rygor inżynierski.
4. Niejasne twierdzenia o reagowaniu na incydenty
Źle: "Uczestniczyłem w rotacji dyżurów i reagowaniu na incydenty."
Dobrze: "Prowadziłem reagowanie na incydenty dla 34 incydentów produkcyjnych w ciągu 12 miesięcy, redukując MTTR P1 z 41 minut do 13 minut wdrażając zautomatyzowaną korelację diagnostyczną między metrykami Prometheus, logami Loki i trasami Jaeger."
Uczestnictwo w dyżurach jest oczekiwane. Mierzalna poprawa wyników incydentów jest tym, co cię zatrudnia.
5. Ignorowanie biznesowego wpływu pracy nad niezawodnością
Źle: "Zoptymalizowałem koszty infrastruktury chmurowej."
Dobrze: "Wdrożyłem automatyzację right-sizing i strategie instancji spot w 14 000 instancjach EC2, redukując roczne wydatki AWS o 2,1 miliona USD (23%) przy jednoczesnym utrzymaniu SLO opóźnienia p99."
Praca SRE ma wpływ wyrażony w dolarach. Oblicz go i umieść na swoim CV.
6. Traktowanie SRE jako roli operacyjnej
Źle: "Zarządzałem serwerami, wdrażałem aplikacje i monitorowałem systemy."
Dobrze: "Napisałem operator Kubernetes w Go, który zautomatyzował walidację wdrożeń dla 85 usług, uruchamiając 12 zautomatyzowanych sprawdzeń (limity zasobów, probe gotowości, konfiguracja PDB) na wdrożenie i blokując 23 błędnie skonfigurowane wydania w III kwartale 2025."
SRE to dyscyplina inżynierii oprogramowania. Twoje CV powinno odzwierciedlać, że piszesz kod rozwiązujący problemy niezawodności, a nie że ręcznie obsługujesz systemy.
7. Brak języka SLO/SLI/error budget
Źle: "Monitorowałem wydajność aplikacji i zdrowie systemu."
Dobrze: "Zdefiniowałem SLO dla 28 usług używając modelu error budget, z zautomatyzowanymi alertami burn-rate zamrażającymi niekrytyczne wdrożenia, gdy usługi zużywały ponad 75% swojego 30-dniowego error budget, zapobiegając 8 potencjalnym incydentom widocznym dla klienta w IV kwartale 2025."
Jeśli Twoje CV nie wspomina SLO, SLI ani error budgetów, menedżerowie ds. rekrutacji w firmach praktykujących SRE założą, że nie pracowałeś w dojrzałej organizacji niezawodności.
Słowa kluczowe ATS dla CV Site Reliability Engineer
Obserwowalność i monitorowanie
Prometheus, Grafana, Datadog, New Relic, OpenTelemetry, Jaeger, Honeycomb, Splunk, ELK Stack, Loki, Thanos, Cortex, rozproszone śledzenie, agregacja logów, zbieranie metryk
Infrastruktura i chmura
Kubernetes, Docker, Terraform, Pulumi, AWS, GCP, Azure, EC2, EKS, GKE, S3, Lambda, CloudFormation, Helm, Kustomize, Crossplane, infrastruktura jako kod
Automatyzacja i CI/CD
ArgoCD, Spinnaker, Jenkins, GitHub Actions, GitLab CI, Ansible, Chef, Puppet, SaltStack, Flux, Tekton, GitOps, zarządzanie konfiguracją
Zarządzanie incydentami i niezawodność
PagerDuty, Opsgenie, reagowanie na incydenty, MTTR, MTTD, SLO, SLI, SLA, error budget, przegląd po incydencie, postmortem bez winnych, dyżur, runbook, polityka eskalacji
Programowanie i systemy
Python, Go, Bash, Java, Rust, Linux, TCP/IP, DNS, równoważenie obciążenia, service mesh, Istio, Envoy, Linkerd, chaos engineering, Gremlin, planowanie pojemności, dostrajanie wydajności
Często zadawane pytania
Czy powinienem wymieniać moje doświadczenie w dyżurach w CV SRE?
Tak, ale ujmij je w kategoriach wyników, a nie uczestnictwa. Zamiast "uczestniczyłem w rotacji dyżurów 24/7", napisz "pełniłem rolę głównego dyżurnego dla 6 usług produkcyjnych obsługujących średnio 14 000 żądań na sekundę, utrzymując 99,98% dostępność podczas zmian dyżurnych i redukując wskaźnik eskalacji o 34% dzięki poprawionej automatyzacji runbooków." Menedżerowie ds. rekrutacji oczekują doświadczenia w dyżurach. Szukają tego, czy uczyniłeś dyżury lepszymi dla następnej osoby.
Które certyfikaty mają największe znaczenie dla ról SRE?
Trzy certyfikaty najczęściej wymieniane w ogłoszeniach o pracę dla SRE to Certified Kubernetes Administrator (CKA) od CNCF (445 USD, praktyczny egzamin oparty na wydajności), Google Cloud Professional Cloud DevOps Engineer (200 USD, potwierdza praktyki SRE na GCP) oraz AWS Certified DevOps Engineer Professional. HashiCorp Certified Terraform Associate (70,50 USD, potwierdza biegłość w infrastrukturze jako kod) jest również coraz bardziej ceniony, szczególnie dla ról akcentujących automatyzację infrastruktury. Certyfikaty mają największe znaczenie dla kandydatów na poziomie początkującym i średnim. Na poziomie staff, Twoje portfolio projektów i doświadczenie w projektowaniu systemów mają większą wagę.
Jak napisać CV SRE bez tytułu SRE w historii pracy?
Wielu SRE przechodzi z ról inżyniera oprogramowania, administracji systemami lub DevOps. Skup się na przenaszalnych osiągnięciach: jeśli napisałeś automatyzację, która zredukowała pracę ręczną, to jest redukcja toil. Jeśli ustawiłeś monitorowanie i alerty, to jest obserwowalność. Jeśli poprawiłeś niezawodność wdrożeń, to jest release engineering. Przeformułuj swoje punkty używając terminologii SRE: "Wdrożyłem monitorowanie Prometheus dla 12 usług i zdefiniowałem SLO, które zredukowały niewykryte awarie z 8 miesięcznie do 1" jest ważnym punktem SRE, nawet jeśli twój tytuł brzmiał "Software Engineer" lub "DevOps Engineer."
Czy powinienem zawrzeć sekcję umiejętności, czy zintegrować narzędzia w punktach doświadczenia?
Obie rzeczy. Dołącz dedykowaną sekcję Umiejętności techniczne pogrupowaną według kategorii (Obserwowalność, Infrastruktura, Automatyzacja, Chmura), aby systemy ATS mogły sparsować Twoją biegłość w narzędziach. Następnie odwołaj się do konkretnych narzędzi w punktach doświadczenia, aby zapewnić kontekst i skalę. "Prometheus" w sekcji umiejętności potwierdza, że znasz narzędzie. "Zbudowałem federowany stos Prometheus przyjmujący 18 milionów metryk na sekundę w 4 regionach" w sekcji doświadczenia dowodzi, że obsługiwałeś go na skalę produkcyjną.
Jak długie powinno być CV starszego SRE?
Dla inżynierów z ponad 8 latami doświadczenia dwie strony są odpowiednie i często oczekiwane. Role Senior i Staff SRE wymagają wykazania szerokości (architektura wieloregionowa, przywództwo zespołu, międzyfunkcyjna reakcja na incydenty) i głębi (konkretne systemy, które zaprojektowałeś, ilościowe wyniki, które dostarczyłeś). Skracanie CV starszego do jednej strony zazwyczaj oznacza usuwanie dowodów uzasadniających starsze wynagrodzenie. Skup pierwszą stronę na najnowszej i najbardziej wpływowej roli, a drugą stronę wykorzystaj na wcześniejsze doświadczenie i wykształcenie. Każda linia powinna zawierać albo liczbę, albo techniczną specyfikę; usuń wszystko, co tego nie ma.
Źródła
- Bureau of Labor Statistics. "Network and Computer Systems Administrators: Occupational Outlook Handbook." U.S. Department of Labor. https://www.bls.gov/ooh/computer-and-information-technology/network-and-computer-systems-administrators.htm
- Bureau of Labor Statistics. "Occupational Employment and Wages, May 2023: 15-1244 Network and Computer Systems Administrators." https://www.bls.gov/oes/2023/may/oes151244.htm
- Glassdoor. "Site Reliability Engineer: Average Salary & Pay Trends 2025." https://www.glassdoor.com/Salaries/site-reliability-engineer-salary-SRCH_KO0,25.htm
- Google. "Implementing SLOs." Site Reliability Engineering Workbook. https://sre.google/workbook/implementing-slos/
- Google. "Error Budget Policy." Site Reliability Engineering Workbook. https://sre.google/workbook/error-budget-policy/
- Cloud Native Computing Foundation (CNCF). "Certified Kubernetes Administrator (CKA)." https://www.cncf.io/certification/cka/
- Google Cloud. "Professional Cloud DevOps Engineer Certification." https://cloud.google.com/learn/certification
- HashiCorp. "Terraform Associate Certification." https://developer.hashicorp.com/certifications/infrastructure-automation
- Rootly. "How SREs Use Prometheus and Grafana to Crush MTTR in 2025." https://rootly.com/sre/how-sres-use-prometheus-and-grafana-to-crush-mttr-in-2025
- Coursera. "Preparing for Google Cloud Certification: Cloud DevOps Engineer Professional Certificate." https://www.coursera.org/professional-certificates/sre-devops-engineer-google-cloud