云工程师面试问题 — 30+ 道问题与专家答案
美国劳工统计局(BLS)预计到 2034 年每年将新增约 317,700 个计算机和 IT 岗位,而云工程是这一增长的核心 — AWS、Azure 和 GCP 云工程师的中位数薪资为 $140,000–$143,000,具体取决于平台专业化方向 [1]。云工程师面试极具挑战性,因为它融合了基础设施知识、编码能力、安全意识和架构思维。本指南涵盖了决定你是否能够大规模设计、构建和运营可靠云基础设施的关键问题。
核心要点
- 云工程师面试测试网络、计算、存储和安全方面的广泛知识 — 以及至少一个主要平台(AWS、Azure 或 GCP)的深度专业能力 [2]。
- 行为问题探究你如何处理生产事故、管理成本优化以及与开发团队协作进行部署自动化。
- 技术问题从 VPC 网络基础到多区域灾难恢复和容器编排等高级主题不等。
- 基础设施即代码(Infrastructure-as-Code)— Terraform、CloudFormation — 的熟练掌握现在是基本期望,而非差异化因素。
行为问题
1. 请讲述一次你在云环境中解决关键生产故障的经历。
专家答案: "我们在 us-east-1 的主要生产集群发生了级联故障,原因是 Auto Scaling Group 将实例启动到了一个 EBS 性能下降的可用区。我们的监控(Datadog)在 3 分钟内对 p99 延迟升高发出了告警。我通过检查 AWS Health Dashboard(确认 AZ 降级)进行分类,然后立即修改 ASG 以排除受影响的 AZ。同时,我在其余 AZ 中扩展了健康实例以吸收负载。整个事故持续 22 分钟,其中 8 分钟对客户可见。事后,我实施了 AZ 感知健康检查和基于 AWS Health API 事件的自动 AZ 排除。事后分析揭示我们从未测试过单 AZ 故障 — 我们现在每季度进行一次故障演练。"
2. 描述你如何大幅降低云基础设施成本。
专家答案: "我接手了一个每月支出 $180K 且无成本治理的 AWS 环境。我首先使用 AWS Cost Explorer 识别主要成本驱动因素 — 40% 是 EC2,25% 是 RDS。我发现 30% 的 EC2 实例过度配置(t3.xlarge 以平均 8% CPU 运行),15 个开发/预发布 RDS 实例全天候运行无自动关闭,Reserved Instance 覆盖率仅为 20%。我使用 CloudWatch 指标调整实例规格,为非生产资源实施基于 Lambda 的调度,购买了覆盖 70% 稳态计算的 Savings Plans,并将两个 RDS 实例迁移到 Aurora Serverless。月度支出降至 $112K — 降低 38% — 且无任何性能下降。我构建了一个每周成本报告看板,由工程负责人审查。"
3. 你如何确保云基础设施变更不会影响生产?
专家答案: "所有基础设施变更都通过流水线:Terraform 编写代码,同行评审 PR,CI(GitHub Actions)中通过 terraform plan 验证,先应用到预发布环境,验证后再推广到生产环境。我实施分支保护规则 — 不允许直接应用到生产。对于高风险变更(网络、IAM、数据库),我要求两人审批,并在低流量时段安排变更,在 PR 描述中记录回滚计划。我还使用 Terraform Sentinel 策略来防止已知危险模式 — 如将安全组开放到 0.0.0.0/0 或创建未加密的 EBS 卷。两年内,我们实现了零次基础设施变更相关故障 [3]。"
4. 请讲述一次你将工作负载从本地迁移到云的经历。
专家答案: "我们将一个遗留 .NET 单体应用从托管数据中心迁移到 AWS。我主导了评估阶段 — 记录所有依赖关系、数据流和性能基线。我们首先选择了直接迁移(lift-and-shift)方式(EC2 + RDS)以降低风险,并制定了第二阶段(容器化)的现代化路线图。关键挑战是数据库迁移 — 一个 2TB 的 SQL Server 数据库,要求几乎零停机。我使用 AWS DMS(数据库迁移服务)进行持续复制,在凌晨 2 点的 30 分钟维护窗口内完成切换,并通过行数和校验和比较验证数据完整性。迁移后,由于计算和数据库位于同一区域,延迟降低了 15%。"
5. 描述你如何与开发团队协作处理基础设施需求。
专家答案: "我作为内部平台工程师运作 — 构建自助服务能力,而不是充当工单处理者。我为常见模式(ECS 服务、RDS 数据库、带加密的 S3 存储桶)创建了 Terraform 模块,开发者可以在自己的仓库中使用。我每两周举办一次办公时间,开发者可以讨论架构,并参加产品团队的冲刺计划以了解即将到来的基础设施需求。当一个团队想要部署新的微服务时,我提供了一个包含 Terraform、CI/CD 流水线、监控看板和运维手册的模板仓库 — 他们在 4 小时内就拥有了生产就绪环境,而不是之前的 2 周工单流程。"
6. 你在日常工作中如何处理云安全?
专家答案: "安全不是一项独立活动 — 它融入到每一个基础设施决策中。我对所有 IAM 策略遵循最小权限原则,使用 IAM Access Analyzer 识别过度授权的角色。所有静态数据使用 KMS 密钥加密(敏感工作负载使用客户管理密钥),传输中的数据使用 TLS 1.2+。我持续运行 AWS Config 规则和 Security Hub 检查,对常见发现(公开的 S3 存储桶、不受限的安全组)实施自动修复。我还进行季度访问权限审查,并按 90 天周期轮换凭证。我们最近一次 SOC 2 审计中零云相关发现 [4]。"
技术问题
7. 解释 AWS、Azure 或 GCP 的共享责任模型。
专家答案: "云提供商负责云'自身'的安全 — 物理基础设施、虚拟机管理程序、托管服务内部。客户负责云'内部'的安全 — IAM 策略、网络配置、数据加密、应用层安全以及 EC2/VM 的操作系统补丁。边界根据服务类型而变化:使用 IaaS(EC2)时,你管理虚拟机管理程序以上的所有内容;使用 PaaS(Lambda、RDS)时,提供商管理操作系统和运行时;使用 SaaS 时,你主要管理访问权限和数据。最常见的安全失败源于客户对这个边界的误解 — 假设提供商保护的实际上是自己的责任,如 S3 存储桶策略或安全组规则 [2]。"
8. 为使用关系型数据库的 Web 应用设计一个高可用多区域架构。
专家答案: "该架构跨越两个区域,采用主动-被动数据库配置。在主区域:Application Load Balancer 将流量分发到三个可用区的 Auto Scaling Group EC2 实例(或 ECS/EKS 容器)。数据库是 Amazon Aurora,每个 AZ 都有只读副本。在辅助区域:规模缩减(温备)的相同基础设施。Aurora Global Database 提供跨区域复制,延迟通常不到 1 秒。Route 53 健康检查监控主区域 — 故障时 DNS 故障转移将辅助区域提升。静态资源通过 CloudFront 提供,S3 源通过 S3 跨区域复制进行复制。RTO 目标:5 分钟以内。RPO 目标:Aurora Global Database 下不到 1 秒。我还会实施 Route 53 Application Recovery Controller 以处理更复杂的故障转移场景 [5]。"
9. 什么是基础设施即代码(IaC),你如何实施?
专家答案: "IaC 将基础设施配置视为源代码 — 版本控制、评审、测试和自动应用。我在多云环境中主要使用 Terraform(HCL),因为它与提供商无关,并且拥有最强大的模块和提供者生态系统。我的 Terraform 工作流程:按领域组织模块(网络、计算、数据),使用 DynamoDB 锁定的 S3 远程状态,用工作区进行环境隔离,以及在创建 PR 时运行 terraform plan、在合并到 main 时运行 terraform apply 的 CI/CD 流水线。我使用 tflint 进行代码质量检查、Checkov 进行安全扫描、Infracost 进行成本估算。对于纯 AWS 环境,CloudFormation 或 CDK 是可行的替代方案,但 Terraform 的可移植性和状态管理使其成为我的默认选择 [3]。"
10. 解释 Kubernetes 架构,以及何时选择它而非 Serverless。
专家答案: "Kubernetes 由控制平面(API 服务器、etcd、调度器、控制器管理器)和运行 kubelet、kube-proxy 和容器运行时的工作节点组成。Pod 是最小可部署单元。Deployment 管理无状态工作负载;StatefulSet 管理具有稳定网络标识和持久卷的有状态工作负载。Service 提供网络(ClusterIP、NodePort、LoadBalancer)。选择 Kubernetes 的情况:工作负载需要细粒度资源控制、团队需要跨云可移植性、工作负载具有一致的流量模式从而受益于预留计算,或应用有复杂的网络需求。选择 Serverless(Lambda、Cloud Functions)的情况:工作负载是事件驱动的、流量不稳定且不可预测、团队规模小无法管理集群运维,或冷启动延迟可接受。决策关乎运维复杂性与控制权的权衡 — Kubernetes 给你更多控制权但需要更多运维投入 [6]。"
11. 你如何为基础设施部署实施 CI/CD 流水线?
专家答案: "我的标准流水线:(1) 开发者将 Terraform 变更推送到功能分支。(2) GitHub Actions 运行 terraform init、terraform validate、tflint 和 checkov 进行静态分析。(3) 对目标环境运行 terraform plan,plan 输出作为 PR 评论发布以便审查者查看。(4) 审批和合并后,terraform apply 自动在预发布环境运行。(5) 预发布验证(手动或自动冒烟测试)后,通过手动审批门控的独立工作流应用到生产。我使用 OIDC 进行 AWS 认证(CI 中无静态凭证),流水线有用于临时环境的 terraform destroy 选项。状态锁定防止并发修改 [3]。"
12. 你在云环境中使用哪些监控和可观测性策略?
专家答案: "我实施三大支柱:指标(CloudWatch/Datadog 用于基础设施和应用指标)、日志(CloudWatch Logs 或 ELK/Loki 集中收集,使用结构化 JSON 日志)和追踪(AWS X-Ray 或 Jaeger 用于分布式追踪)。告警方面,我采用基于严重级别的方法:P1(自动呼叫,影响客户)、P2(Slack 告警,降级但可用)、P3(工单,下个工作日调查)。我使用黄金信号 — 延迟(p50、p95、p99)、流量(请求/秒)、错误(错误率)和饱和度(CPU、内存、磁盘)。SLO(服务等级目标)定义目标可靠性 — 例如 99.9% 可用性、p99 延迟低于 500ms。从 SLO 衍生的错误预算决定何时优先考虑可靠性而非功能 [5]。"
13. 解释 VPC 网络基础知识以及你如何设计网络架构。
专家答案: "VPC 是云区域内的隔离虚拟网络。我使用标准化 CIDR 方案设计 VPC:VPC 使用 /16,子网使用 /20(每个 4,094 个 IP),跨可用区分布。公共子网(带 Internet 网关路由)托管负载均衡器和堡垒机;私有子网(NAT 网关路由)托管应用实例;隔离子网(无互联网路由)托管数据库。网络 ACL 提供无状态边界过滤;安全组提供有状态实例级过滤。对于多 VPC 架构,我使用 AWS Transit Gateway 作为枢纽,而不是 VPC 对等连接,因为后者在超过 10-15 个 VPC 后扩展性不佳。我还实施 VPC Flow Logs 进行网络监控和故障排除,以及通过 Route 53 Resolver 进行混合环境的 DNS 解析 [4]。"
情景问题
14. 你公司的 AWS 账单在没有对应流量增长的情况下每月增长 15%。你如何调查?
专家答案: "我会采取系统化方法:(1) 打开 AWS Cost Explorer,按服务、区域和账户过滤,识别哪个服务在驱动增长。(2) 查找新创建的资源 — CloudTrail 日志显示谁在何时创建了什么。(3) 检查常见浪费模式:孤立的 EBS 卷、空闲的负载均衡器、被遗忘的测试环境,以及跨区域或跨 AZ 流量的数据传输成本。(4) 审查近期架构变更 — 是否有人启用了将 TB 级数据发送到 S3 的日志功能?(5) 检查 Marketplace 订阅或自动续费的第三方服务。我会提交带有优先级排序的修复计划,显示每个操作项的预估节省金额。应实施自动成本异常检测(AWS Cost Anomaly Detection 或自定义 Lambda),以便更早发现未来的峰值。"
15. 开发团队想从自己的笔记本电脑直接部署到生产环境。你如何引导他们采用更好的方法?
专家答案: "我不会以'不行'开头 — 我会先理解他们为什么想这样做。通常是因为部署流程太慢或太官僚。我会提出折中方案:一个快速、自动化的流水线,从合并到 main 到生产部署不超过 10 分钟。我会与他们一起(而不是替他们)构建流水线,使其拥有归属感,包含自动化测试和安全扫描门控,并演示它比手动部署既快又安全。我会解释笔记本部署的风险 — 不可重现的构建、无审计追踪、无回滚能力和凭证暴露。一旦体验过流水线,他们很少想回到原来的方式。你通过开发者体验赢得采纳,而非策略强制。"
16. 你被要求为新应用设计基础设施,但需求模糊。你如何推进?
专家答案: "我会提出五个澄清问题:(1) 预期的流量模式是什么(稳定、突发、事件驱动)?(2) 数据驻留要求是什么(单区域、多区域、特定国家)?(3) 可用性目标是什么(99.9%、99.99%)?(4) 数据存储和保留要求是什么(量、访问模式、合规性)?(5) 预算约束是什么?有了这些答案,我就能设计合适的架构。我会从处理核心需求的最小可行架构开始,使用托管服务减少运维负担(Aurora 替代自建 PostgreSQL,ECS Fargate 替代自建 EC2 集群)。我记录每个组件的扩展策略,以便无需重新架构即可增长。"
17. 高峰时段发生数据库故障转移,但应用没有自动重连。你调查什么?
专家答案: "常见原因:(1) DNS 缓存 — 应用正在解析旧的数据库端点。我检查连接池是否遵守 DNS TTL(Aurora DNS TTL 为 5 秒,但许多连接池在 OS 或 JVM 级别缓存 DNS)。(2) 连接池耗尽 — 池保持着过期连接且使用前不进行验证。我检查连接验证查询(SELECT 1)和空闲超时设置。(3) 应用级重试逻辑 — 如果应用在连接失败时不重试,单次故障转移会导致永久断连。我会实施带抖动的指数退避重试。(4) 故障转移期间的安全组或路由变更。立即解决方案是重启应用 Pod/实例。长期方案是实施连接池健康检查、DNS TTL 感知和适当的重试逻辑。"
18. 合规审计要求你证明所有静态数据都已加密。你如何证明?
专家答案: "我会从三个来源收集证据:(1) AWS Config 规则 — 展示 encrypted-volumes、rds-storage-encrypted、s3-bucket-server-side-encryption-enabled 的活动规则及其合规状态。(2) Terraform 代码 — 展示默认强制加密的 IaC 模块(EBS、RDS 和 S3 资源定义中的 KMS 密钥引用)。(3) AWS Config 合规时间线 — 显示这些规则在审计期间持续合规。我还会展示我们防止创建未加密资源的 Terraform Sentinel 或 Checkov 策略。对于审计人员,我会准备一份摘要文档,将每个数据存储映射到其加密方法、密钥管理策略和合规证据。"
向面试官提的问题
- 公司使用哪些云平台,是否有多云策略?(确定哪些平台技能最相关。)
- 基础设施即代码的实践成熟度如何 — 有多少百分比的基础设施通过代码管理?(揭示运维成熟度。)
- 云基础设施的值班轮换是怎样的?(关于工作生活平衡和事故频率的实际问题。)
- 云团队如何与应用开发团队协作?(确定你是平台工程师还是工单处理者。)
- 每月云支出是多少,是否有 FinOps 实践?(表明你关注成本效率 — 每个招聘经理都重视的特质。)
- 你们如何处理云中的安全和合规要求?(揭示安全成熟度和监管负担。)
- 团队当前面临的最大基础设施挑战是什么?(表明你想为解决实际问题做出贡献。)
面试形式
云工程师面试通常跨越 1-2 周,包含 4-5 轮 [2]。第一轮是招聘人员筛选(30 分钟),涵盖背景和云认证。第二轮是技术电话筛选(45-60 分钟),包含云架构和网络问题。第三轮是系统设计练习,你需要在白板或共享文档上设计云架构。第四轮是实操练习 — 一些公司提供实时 AWS/Azure 环境,要求你排查故障或构建基础设施。行为面试穿插在整个过程中。一些公司会增加编码轮(用于自动化脚本的 Python 或 Go)。FAANG 公司会增加额外的系统设计和编码轮。
如何准备
- 获取认证。 AWS Solutions Architect Associate、Azure Administrator 或 GCP Associate Cloud Engineer 认证证明基础能力并通过 HR 筛选 [2]。
- 练习系统设计。 为常见模式绘制架构图:多层 Web 应用、事件驱动流水线、多区域灾备。练习解释权衡取舍。
- 精通网络。 VPC、子网、路由表、安全组、NACL、DNS、负载均衡器 — 网络问题出现在每次云面试中。
- 编写 Terraform。 准备一个包含你构建的 Terraform 模块的公开 GitHub 仓库。能够结合代码示例讨论你的 IaC 方法非常有说服力 [3]。
- 了解成本优化。 熟悉 Savings Plans 与 Reserved Instances 的区别、合理调整规格策略和常见浪费模式。
- 学习 Kubernetes 基础。 即使职位不以 Kubernetes 为中心,也期望你理解 Pod、Service、Deployment 和 Ingress。
- 使用 ResumeGeni 构建 ATS 优化的简历,突出云认证、特定平台经验(AWS/Azure/GCP)、IaC 工具和量化的基础设施改进。
常见面试错误
- 记住服务名称却不理解架构。 知道 S3 是对象存储还不够 — 解释何时使用 S3、EFS 与 EBS 及其权衡 [2]。
- 在设计中忽视成本。 每个架构都应考虑成本效率。为只有 100 个用户的创业公司设计多区域、多 AZ、全冗余架构说明判断力不足。
- 不讨论安全。 如果你的架构设计没有提到 IAM、加密或网络分段,面试官会感到担忧。
- 只熟悉一个平台而不了解替代方案。 如果你只了解 AWS,你至少应在较高层面了解 Azure 和 GCP 的对等服务。
- 忽略运维方面。 设计基础设施而不讨论监控、告警、日志和事故响应是不完整的。
- 不提及 IaC。 如果你描述的是手动在控制台点击操作,对于高级职位来说面试基本上就结束了 [3]。
- 不量化影响。 "我管理 AWS 基础设施"太弱。"我管理每月 $150K 的 AWS 环境,服务 200 万月活用户,可用性达 99.95%"展示了规模和影响力。
核心要点
- 云工程师面试测试平台知识、架构思维、安全意识和运维成熟度 — 在所有维度做好准备。
- 系统设计练习是信号最强的环节 — 练习绘制多层、多区域架构并清晰解释权衡取舍。
- 基础设施即代码和基础设施 CI/CD 是中级和高级职位的基本期望。
- 使用 ResumeGeni 确保你的简历突出云认证、平台专业知识和量化的基础设施指标。
常见问题
我应该首先获取哪个云认证?
AWS Solutions Architect Associate 是最广泛认可且适用性最广的。如果目标公司使用 Azure 或 GCP,优先选择该平台的助理级认证。认证本身不如准备过程中获得的知识重要 [2]。
云工程师的薪资范围是多少?
根据平台专业化方向,中位数薪资在 $130,000 到 $143,000 之间。AWS 工程师平均 $140,000,Azure 工程师 $141,619,GCP 工程师 $143,000。顶级公司的高级和首席云工程师总薪酬达 $180,000–$250,000+ [1]。
我需要了解所有三个主要云平台吗?
深入了解一个,其余两个在概念层面了解即可。大多数公司使用一个主要平台。理解跨平台的对等服务(EC2/Compute Engine/VMs、S3/Cloud Storage/Blob Storage)展示了广度。
编码对云工程师有多重要?
重要且越来越重要。预期掌握 Python、Go 或 Bash 脚本用于自动化。除非职位标注为科技公司的"Cloud Platform Engineer"或"SRE",否则通常不要求完整的软件开发技能(数据结构、算法)。
我应该学 Terraform 还是 CloudFormation?
Terraform。它与云无关,有更大的社区,是跨行业的事实 IaC 标准。CloudFormation 知识对于重度 AWS 环境是加分项,但可移植性较差 [3]。
云工程师和 DevOps 工程师的区别是什么?
有大量重叠。云工程师更注重基础设施设计、配置和优化。DevOps 工程师更注重 CI/CD 流水线、开发者工具以及连接开发与运维。许多职位混合了两种职责。使用 ResumeGeni 为你目标的具体职位名称定位简历。
如何从系统管理员转型为云工程师?
从云认证开始,将一个个人或小型工作项目迁移到云端。尽早专注于 IaC(Terraform)— 这是从 GUI 点击到思维方式的最大转变。你的网络和操作系统知识可以直接迁移;在此基础上添加云原生服务和自动化。
引用: [1] DataCamp, "Cloud Engineer Salaries in 2026: AWS, Azure, Google Cloud," https://www.datacamp.com/blog/cloud-engineer-salary [2] DataCamp, "Top 34 Cloud Engineer Interview Questions and Answers in 2026," https://www.datacamp.com/blog/cloud-engineer-interview-questions [3] HashiCorp, "Terraform Documentation," https://developer.hashicorp.com/terraform/docs [4] AWS, "AWS Well-Architected Framework," https://docs.aws.amazon.com/wellarchitected/latest/framework/welcome.html [5] DigitalDefynd, "Top 50 Advanced Cloud Engineer Interview Questions," https://digitaldefynd.com/IQ/cloud-engineer-interview-questions/ [6] Kubernetes, "Kubernetes Documentation," https://kubernetes.io/docs/home/ [7] Bureau of Labor Statistics, "Computer and Information Technology Occupations," https://www.bls.gov/ooh/computer-and-information-technology/ [8] Coursera, "AWS Cloud Practitioner Salary: Your 2026 Guide," https://www.coursera.org/articles/aws-cloud-practitioner-salary