平台工程師面試問題
擁有成熟平台團隊的公司招聘經理報告,60%的候選人在技術面試中失敗不是因為工具知識,而是系統設計思維和用業務語言解釋基礎設施決策的能力 [1]。平台工程面試與通用DevOps面試有一個關鍵區別:面試官評估你是否將基礎設施視為內部產品。
關鍵要點
- 預期三階段面試:行為/文化適配、技術深潛、系統設計
- 行為問題聚焦平台即產品思維:開發者同理心、跨團隊協作、事件領導力
- 技術問題測試Kubernetes內部、IaC設計和可觀測性架構
- 情境題評估你如何優先處理多個團隊的競爭需求
- 準備4-5個涵蓋平台影響、事件回應和開發者體驗改善的STAR故事
行為問題(STAR格式)
1. 描述你建構了一個開發者最初抵制的平台功能。如何推動採納?
**考察點**:平台工程師建構內部產品。採納率是終極指標。
2. 講述你作為事件指揮官領導的最複雜的生產事件。
3. 兩個產品團隊對平台有衝突的需求。你如何解決?
4. 如何說服管理層投資平台基礎設施而非功能開發?
5. 如何衡量你建構的平台的成功?
**框架**:DORA指標、開發者滿意度調查、自助服務採納率、新工程師首次部署時間、平台可用性SLO。
技術問題
1. 從套用Deployment清單到容器運行,Kubernetes中發生了什麼?
**評估**:kubectl → API伺服器(認證、授權、准入控制器)→ etcd持久化 → 排程器(過濾、評分、綁定)→ 選定節點的kubelet → CRI呼叫 → CNI網路 → 就緒探針通過 → 端點註冊。
2. 為擁有15個產品團隊的組織設計Terraform模組策略。
**評估**:模組組合、狀態隔離、遠端後端設定、RBAC、模組版本管理、漂移偵測策略。
3. 為運行500+Pod的叢集實現零停機Kubernetes升級。
**評估**:PodDisruptionBudget、節點池滾動更新、API伺服器版本偏差策略、升級前驗證、金絲雀叢集策略、升級期間監控、回滾程序。
4. 為服務50個微服務的平台設計可觀測性堆疊。
**評估**:指標(Prometheus + Thanos)、日誌(Fluent Bit → Loki)、追蹤(OpenTelemetry → Tempo/Jaeger)、關聯、基於SLO的告警、自助服務Grafana儀表板。
5. 開發者報告部署需要45分鐘。如何診斷和最佳化?
**評估**:系統性追蹤流水線:程式碼檢出、依賴安裝、建構、測試、映像推送、ArgoCD同步、Pod排程。先識別瓶頸再最佳化。
6. Kyverno與OPA/Gatekeeper的區別。何時選擇哪個?
**評估**:OPA/Gatekeeper使用Rego語言,學習曲線陡峭,適合複雜跨資源策略。Kyverno使用原生Kubernetes YAML策略,門檻更低。
情境問題
1. 5人平台團隊同時收到8個產品團隊的請求。如何優先排序?
**方法**:按影響、緊急度、策略對齊分類。透明的接入流程:週度優先順序會議、公開路線圖、按請求類型的SLA。
2. 新CTO要求6個月內將全部基礎設施從AWS遷移到GCP。
**方法**:影響評估、分階段方法——先透過Terraform模組抽象雲端耦合、非生產環境POC、有回滾能力的生產遷移。
3. 工作時間內Kubernetes叢集出現間歇性Pod驅逐。
**方法**:檢查節點級資源壓力、資源請求vs實際使用、嘈雜鄰居效應。實施ResourceQuota和LimitRange。
4. 40%的Terraform狀態檔案6個月未套用,漂移累積。
**方法**:不盲目terraform apply。對每個狀態檔案運行plan,分類漂移,實施持續漂移偵測。
5. VP工程要求其團隊直接存取生產Kubernetes叢集。
**方法**:替代方案:透過RBAC的唯讀kubectl、Grafana儀表板、臨時除錯容器、日誌聚合。如堅持——限時存取加稽核日誌。
面試官評估標準
**技術深度(40%)**:能否在元件級別解釋系統如何工作? **系統設計(25%)**:能否架構大規模服務多團隊的平台元件? **產品與溝通(20%)**:能否用業務術語解釋基礎設施決策? **事件與維運(15%)**:能否系統性地診斷生產問題並防止再發?
向面試官提問
- 「平台團隊如何衡量成功?」
- 「正在優先解決的開發者體驗痛點是什麼?」
- 「平台團隊相對於產品團隊如何組織?」
- 「當前部署頻率是多少?瓶頸在哪?」
- 「最近最具爭議性的基礎設施決策是什麼?」
- 「平台團隊的值班是什麼樣的?」
- 「是否有架構評審或RFC流程?」
最終要點
平台工程面試評估三個維度:技術深度、產品思維和維運成熟度。準備圍繞可衡量平台成果的STAR故事。
常見問題
預期幾輪面試?
通常4-5輪。2-4週。
創業公司vs大公司?
創業公司強調廣度,大公司強調深度。
Go有多重要?
中級以上越來越重要。如果公司建構客製化Kubernetes operator——事實上必需。
沒有特定工具經驗?
聚焦可轉移概念。GitOps原則是相同的。
**引用:** [1] DORA / Google Cloud, "2024 Accelerate State of DevOps Report," dora.dev, 2024.