サイト信頼性エンジニア(SRE)のスキルガイド:技術スキルとソフトスキル
2025年のDevOps求人市場分析(832件のポジションを対象)によると、SREの年収中央値は177,500ドルで、70.6%がリモートワークを提供しています。インフラストラクチャ分野において最も高い報酬と柔軟性を兼ね備えた職種のひとつです [1]。Googleが2003年に「サイト信頼性エンジニアリング」という用語を生み出してから20年、この役割はGoogle固有のプラクティスから、BLSが2034年まで継続的な需要を予測する標準的な組織機能へと進化しました [2]。本ガイドでは、オファーを獲得するSRE候補者と選考で落とされる候補者を分ける、具体的な技術コンピテンシー、業務上の強み、そして新興スキルを明らかにします。
重要ポイント
- Kubernetes、オブザーバビリティプラットフォーム(Datadog、Grafana)、Infrastructure as Code(Terraform)は、SREの求人情報で最も頻繁に記載される技術要件であり、求人の70%以上に登場します [1]
- インシデント管理のリーダーシップ――構造化されたインシデント対応を主導しながら関係者への情報提供を行う能力――は、純粋な技術力を上回り、SRE採用で最も評価されるソフトスキルです [3]
- プラットフォームエンジニアリング、FinOps(クラウドコスト最適化)、AI活用オペレーション(AIOps)が、2026年に向けて最も急速に成長しているSREスキル要件です [1]
- SREの一般的な年収レンジは、25パーセンタイルの136,604ドルから75パーセンタイルの213,272ドルまでで、大手テクノロジー企業のシニア職は総報酬で300,000ドルを超えます [4]
技術スキル(ハードスキル)
-
Linuxシステム管理 — Linuxの内部構造を深く理解する必要があります。プロセス管理、メモリ管理、ファイルシステム階層、systemd、カーネルチューニング、strace・perf・vmstat・iostatなどのツールを使用したパフォーマンス診断が含まれます。アプリケーション層のデバッグでは不十分な場合に、OS層でトラブルシュートする能力が求められます [3]。
-
Kubernetesとコンテナオーケストレーション — Kubernetesクラスタ上でコンテナ化されたアプリケーションのデプロイ、スケーリング、トラブルシューティングを行います。Pod、Deployment、Service、Ingress、Persistent Volume、RBAC、カスタムリソース定義の理解が必要です。クラスタのアップグレード、ノードスケーリング、リソースクォータの管理も含まれます [1]。
-
Infrastructure as Code(Terraform、Pulumi) — 宣言的コードによるクラウドインフラの定義と管理です。Terraformモジュールの記述、ステートファイルの管理、ドリフト検出の実装、チームがセルフサービスで利用できる再利用可能なインフラパターンの構築が含まれます。HCL構文とプロバイダエコシステムの理解が求められます [1]。
-
オブザーバビリティ(メトリクス、ログ、トレース) — Datadog、Grafana/Prometheus、New Relic、Splunkなどのツールを使用した包括的なオブザーバビリティの実装です。SLI/SLOダッシュボードの設計、ノイズを最小化するアラート閾値の設定、JaegerやOpenTelemetryを使用した分散トレーシングの実装、サービス間でのメトリクス相関分析が含まれます [3]。
-
プログラミング(Python、Go、Bash) — SREはトイルの自動化、内部ツールの構築、自己修復システムの作成のためにコードを書きます。Pythonは自動化スクリプトとツーリング、GoはパフォーマンスクリティカルなサービスとCLIツール、BashはグルースクリプトとOS自動化に使用されます。プロダクション品質のコーディングスキルが求められるものであり、オプションではありません [5]。
-
クラウドプラットフォーム(AWS、GCP、Azure) — パブリッククラウドプラットフォーム上の本番インフラの設計・運用です。コンピュート(EC2、GKE)、ネットワーキング(VPC、ロードバランサ、DNS)、ストレージ(S3、GCS)、データベース(RDS、Cloud SQL)、セキュリティ(IAM、セキュリティグループ)の各サービスを、インシデント時の根本原因分析が可能な深さで理解する必要があります [1]。
-
CI/CDパイプラインエンジニアリング — Jenkins、GitHub Actions、GitLab CI、ArgoCD、Spinnakerを使用したデプロイパイプラインの構築・保守です。プログレッシブデリバリー戦略の実装――Blue-Greenデプロイメント、カナリアリリース、フィーチャーフラグ――により、安全な本番変更を実現します [3]。
-
ネットワーキングの基礎 — TCP/IP、DNS、HTTP/gRPC、ロードバランシングアルゴリズム、CDN設定、TLS/SSL、ネットワークトラブルシューティングの理解が必要です。分散システム全体にわたるレイテンシ問題、パケットロス、接続性の問題を診断するためには、堅実なネットワーキング知識が不可欠です [5]。
-
データベース信頼性 — 本番環境でのデータベースシステム(PostgreSQL、MySQL、MongoDB、Redis)の管理です。レプリケーション、バックアップ/リストア、クエリパフォーマンス最適化、コネクションプール管理、フェイルオーバー手順が含まれます。インシデント時のパフォーマンス低下を診断できる程度にデータベースの内部構造を理解する必要があります [3]。
-
インシデント管理とオンコール — PagerDutyのインシデント管理プロセスなどのフレームワークを使用した構造化されたインシデント対応の実行です。重大度の分類、対応者の調整、ステータス更新の伝達、根本原因分析の実施、組織的改善を推進するブレームレスポストモーテムの作成が含まれます [5]。
-
構成管理(Ansible、Chef、Puppet) — サーバーフリート全体にわたる構成、パッケージ管理、コンプライアンス遵守の自動化です。Kubernetesにより構成管理の一部のニーズは減少しましたが、多くの組織はCMツールを必要とするハイブリッドインフラを維持しています [3]。
-
カオスエンジニアリング — 耐障害性の仮説を検証するための計画的な障害注入です。Gremlin、Chaos Monkey、LitmusChaosなどのツールを使用して、実際の障害が弱点を露呈する前にフェイルオーバーメカニズム、サーキットブレーカ、デグレーション戦略をテストします [5]。
ソフトスキル
-
インシデントリーダーシップ — 本番障害時にインシデントコマンダーの役割を担います。冷静さを維持し、調査タスクを委任し、並行するワークストリームを管理し、関係者にステータスを伝達し、時間的プレッシャーの中で困難な判断(ロールバックか前進修正か)を下す能力が求められます [3]。
-
ブレームレスポストモーテムの進行 — 個人の責任ではなく組織的な原因に焦点を当てたポストモーテムの議論を主導します。実行可能な改善項目を抽出し、フォローアップの完了を追跡し、インシデントを学習の機会として捉える組織文化を構築する能力です [5]。
-
部門横断的な協働 — SREは開発、運用、プロダクトの交差点に位置します。プロダクトチームとのSLO合意の確立、サービスアーキテクチャの意思決定に関するコンサルティング、エラーバジェットポリシーの交渉には、組織の境界を超えた外交的なスキルが求められます [3]。
-
ストレス下でのコミュニケーション — インシデント中に、同僚エンジニアから経営幹部まで幅広い聴衆に対して、明確で正確なステータス更新を提供する能力です。「プライマリデータベースのレプリカがレプリケーションラグ30秒超を経験している」を「一部のお客様に表示データの若干の遅延が15分程度発生する可能性がある」に変換する力が問われます [5]。
-
システム思考 — あるサービスの変更が分散システム全体にどうカスケードするかを理解する力です。障害モードの予測、単一障害点の特定、コンポーネント障害時に壊滅的ではなく優雅にデグレードするシステムの設計が含まれます [3]。
-
信頼性への推進力 — 機能開発のプレッシャーが強い中で、エンジニアリングリーダーシップに信頼性への投資(技術的負債の削減、モニタリングの改善、自動化の構築)を説得する力です。信頼性投資をコストではなく収益保護として位置づけることが重要です [5]。
-
ドキュメンテーションと知識共有 — 明確なランブック、アーキテクチャ決定記録(ADR)、オンコール引き継ぎノート、運用ガイドの作成です。一人のエンジニアの頭の中にしか存在しない知識は、チームにとっての単一障害点となります [3]。
-
継続的改善のマインドセット — トイル(サービスの規模に比例して直線的に増加する反復的で自動化可能な運用作業)の体系的な特定と排除です。GoogleのSRE書籍では、SREが運用作業に費やす時間は50%以内とし、残りをエンジニアリングプロジェクトに充てることを推奨しています [5]。
需要が高まっている新興スキル
-
プラットフォームエンジニアリング — インフラの複雑さを抽象化し、開発者が環境、デプロイメント、オブザーバビリティをセルフサービスで利用できる内部開発者プラットフォーム(IDP)の構築です。Backstage、Crossplane、Portが標準的なIDPコンポーネントとなりつつあります [1]。
-
FinOps(クラウドコスト最適化) — Kubecost、CloudHealth、またはネイティブのクラウドコスト管理ダッシュボードを使用したクラウド支出の分析・最適化です。リザーブドインスタンス、スポットインスタンス、ライトサイジング、コスト配賦の理解が含まれます。クラウド費用が重要な経費項目となる中、FinOpsはSREの中核的な責任として浮上しています [1]。
-
AIOpsとインテリジェントアラーティング — 機械学習を活用したアラートノイズの削減、関連インシデントの相関、キャパシティニーズの予測、ランブック実行の自動化です。Moogsoft、BigPanda、PagerDutyのAI機能が、SREチームの運用複雑性管理を変革しています [1]。
-
eBPFによるオブザーバビリティ — コードの計装なしにカーネルレベルのオブザーバビリティを実現するeBPF(extended Berkeley Packet Filter)の活用です。Cilium、Pixie、FalcoがeBPFを活用して、最小限のオーバーヘッドでネットワークオブザーバビリティ、セキュリティモニタリング、パフォーマンスプロファイリングを実現します [3]。
-
サプライチェーンセキュリティ — ソフトウェアサプライチェーンセキュリティの実装です。コンテナイメージスキャン、SBOM(ソフトウェア部品表)の生成、Sigstoreによるアーティファクト署名、SLSAフレームワークへの準拠が含まれます。サプライチェーン攻撃により、これはセキュリティチームの懸念からSREの責任へと昇格しています [1]。
履歴書でのスキルの示し方
- 信頼性の改善を数値化してください:「サービス可用性を99.9%から99.99%に向上させ、年間の顧客影響分数を525分から52分に削減」は直接的なインパクトを示します
- スケールを明記してください:「3つのAWSリージョンにわたり5,000万DAU(日次アクティブユーザー)にサービスを提供する本番インフラを管理」は運用の複雑性を即座に伝えます
- トイルの排除を記録してください:「2,000以上のサービスの証明書ローテーションを自動化し、月40時間の手動運用作業を排除」はエンジニアリングインパクトを示します
- インシデントリーダーシップ経験を含めてください:「15件以上のSEV-1インシデントの対応を主導し、平均復旧時間23分を達成」は運用的成熟度を示します
- 具体的なツール名を文脈とともに記載してください:「Prometheus、Grafana、Alertmanagerを使用してオブザーバビリティプラットフォームを構築し、平均検知時間を12分から2分未満に短縮」はツール名の羅列よりもはるかに強力です
キャリアレベル別スキル
入門レベル(0~2年)
- Linuxの基礎:コマンドライン、スクリプティング、プロセス管理
- Kubernetesの基本:Deployment、Service、kubectlの習熟
- 1つのプログラミング言語(PythonまたはGo)の実務レベルの習熟
- クラウドの基礎(AWSまたはGCPの主要サービス)
- モニタリングの基本:Prometheus、Grafana、アラートの概念
- メンター付きサポートのもとでのオンコール参加
中級レベル(3~5年)
- Terraformモジュールの開発とステート管理
- Kubernetesクラスタの管理・トラブルシューティング
- サービス境界をまたいだ分散システムのデバッグ
- SLO定義、エラーバジェットの追跡、トイルの測定
- インシデントコマンダー認定と独立したオンコール
- CI/CDパイプラインの設計とプログレッシブデリバリーの実装
- ジュニアSREの指導とプロダクションレディネスレビューの実施
シニアレベル(6年以上)
- 信頼性アーキテクチャ:目標可用性に基づくシステム設計
- プラットフォームエンジニアリング戦略と内部ツーリングロードマップ
- 組織全体のSREプラクティス開発と成熟度評価
- FinOps:クラウドコスト最適化とキャパシティ予測
- 重大インシデント時のエグゼクティブコミュニケーション
- SREチームの採用、育成、リテンション
- 業界ソートリーダーシップ:カンファレンス登壇、ブログ執筆、オープンソース貢献
スキルを証明する資格
-
Google Cloud Professional Cloud DevOps Engineer — Google Cloud発行。GCP上でのソフトウェアデリバリーパイプラインの構築、サービスのデプロイ・モニタリング、インシデント管理の能力を検証します。Googleがこの分野の起源であることから、SREの原則と強く結びついています [5]。
-
AWS Certified DevOps Engineer — Professional — Amazon Web Services発行。AWS上の分散システムのプロビジョニング、運用、管理能力をテストします。CI/CDパイプライン、モニタリング、ログ、セキュリティ自動化が含まれます [1]。
-
Certified Kubernetes Administrator(CKA) — Cloud Native Computing Foundation(CNCF)発行。Kubernetesクラスタ管理のハンズオンスキルを検証します。インストール、ネットワーキング、ストレージ、セキュリティ、トラブルシューティングが含まれ、業界で最も尊重されるKubernetes資格です [1]。
-
HashiCorp Certified: Terraform Associate — HashiCorp発行。Terraformを使用したInfrastructure as Codeの習熟度を証明します。HCL構文、ステート管理、モジュール、クラウドプロバイダ統合が含まれます [1]。
-
DevOps Institute SRE Foundation — DevOps Institute発行。SREの原則、プラクティス、文化をカバーします。SLI、SLO、エラーバジェット、トイル削減、SREの組織的導入が含まれます [6]。
-
DevOps Institute SRE Practitioner — DevOps Institute発行。大規模なSRE実装、高度なインシデント管理、組織的SRE成熟度をカバーする上級認定です。前提としてSRE Foundationが必要です [6]。
-
Linux Foundation Certified System Administrator(LFCS) — Linux Foundation発行。ユーザー管理、ネットワーキング、ストレージ、セキュリティを含むLinux管理スキルを検証する、SRE業務の基盤となるコンピテンシーです [3]。
よくある質問
Q: SREとDevOpsの違いは何ですか? A: DevOpsは開発と運用の協調を重視する文化的哲学です。SREはDevOpsの原則の具体的な実装であり、Googleが最初に定義した、SLI/SLO、エラーバジェット、トイル測定、SREの作業時間の50%以上をエンジニアリング(運用ではなく)に充てるべきという原則を持つ具体的なプラクティスです [5]。
Q: SREになるにはコンピュータサイエンスの学位が必要ですか? A: CS学位は有益ですが必須ではありません。多くの成功しているSREはシステム管理、ソフトウェア開発、またはDevOpsのバックグラウンドを持っています。最も重要なのは、Linux、プログラミング、クラウドプラットフォーム、本番システム運用における実証可能な習熟度であり、資格やプロジェクトポートフォリオで裏付けることが重要です [3]。
Q: SREにとって最も重要なプログラミング言語は何ですか? A: GoとPythonが最も評価される2言語です。Goはパフォーマンスクリティカルなツール、Kubernetesコントローラ、本番サービスに広く使用されています。Pythonは自動化、スクリプティング、データ分析の標準です。両方を学ぶことを推奨しますが、現在のチームのスタックに合致する方から始めてください [5]。
Q: SREの年収はどのくらいですか? A: 業界データによるとSREの年収レンジは、25パーセンタイルの136,604ドルから75パーセンタイルの213,272ドルで、中央値はソースにより170,000~200,000ドルです [4]。大手テクノロジー企業(Google、Meta、Netflix、Stripe)のシニアSREは、株式を含む総報酬で250,000~400,000ドル以上に達します [1]。
Q: システム管理者からSREへの転職はどうすればよいですか? A: プログラミングスキル(まずPython、次にGo)を構築し、KubernetesとTerraformを学び、現在の業務でSLI/SLOによる信頼性の測定を始め、トイルを自動化してください。CKA認定を取得し、自動化プロジェクトのポートフォリオを構築しましょう。この転職は本質的に、運用の専門知識にソフトウェアエンジニアリングの厳密さを加えることです [3]。
Q: オンコールはSREのキャリアの永続的な部分ですか? A: はい。ただし、時間とともに改善されるべきものです。適切に機能するSREチームは、自動化、信頼性の向上、より良いランブックを通じてオンコールの負担を体系的に削減します。オンコールが常に辛い場合、それはチームが修正を優先すべきエンジニアリング上の問題があることを示唆しています。シニアSREは、エスカレーション専用のオンコールやアーキテクチャ・プラットフォーム業務に移行する場合があります [5]。
Q: SREが履歴書で犯す最大のミスは何ですか? A: 運用コンテキストなしにツールを羅列することです。「Kubernetes、Terraform、Prometheus、AWS」はコモディティ化したスキルリストにすぎません。「200以上のマイクロサービスに99.99%の可用性を提供するマルチリージョンKubernetesプラットフォームを設計・運用し、スポットインスタンス自動化とライトサイジングによりインフラコストを30%削減」であれば、エンジニアリング的判断力と測定可能なインパクトを示すことができます。
ATS最適化されたSRE職務経歴書をResume Geniで作成しましょう。無料で始められます。
引用: [1] DevOps Projects HQ, "DevOps Job Market Report H2 2025" [2] U.S. Bureau of Labor Statistics, "Software Developers, Quality Assurance Analysts, and Testers," Occupational Outlook Handbook [3] Jobicy, "Site Reliability Engineer Career Path, Skills & Advice 2025" [4] Glassdoor, "Site Reliability Engineer Salary" [5] Google, "Site Reliability Engineering" [6] DevOps Institute, "SRE Foundation Certification"