資料工程師技能指南
超過 94% 的企業已採用雲端技術,且幾乎所有現代資料基礎設施都在 AWS、Google Cloud Platform 或 Microsoft Azure 上運行 [3]。每一個資料驅動的決策、機器學習模型和分析儀表板背後,都有一條資料工程師建置和維護的資料管線。美國勞工統計局預測電腦和數學職業將在 2024 至 2034 年間成長 10.1%,而資料工程正處於這股需求的核心,因為組織持續投資其資料基礎設施 [8]。
重點摘要
- SQL 和 Python 構成資料工程的絕對基礎,出現在絕大多數職缺中 [2]。
- 雲端平台熟練度已不可或缺。雇主期望您具備至少一個主要供應商(AWS、GCP 或 Azure)的實作經驗。
- Apache Airflow 等排程工具已成為標準要求,同時也需要了解湖倉架構和串流平台。
- 履歷必須列出具體工具、框架和資料量,才能通過 ATS 篩選並展示生產規模經驗。
技術和硬技能
資料工程師建置和維護讓資料可存取、可靠且即時的基礎設施。以下 15 項技能在 2026 年的職缺描述中佔主導地位 [2][3][4]。
1. SQL
SQL 出現在絕大多數資料工程職缺中,仍是資料操作的主要語言 [2]。精通意味著能撰寫複雜的 JOIN、視窗函數、CTE、遞迴查詢,以及在 PostgreSQL 到 BigQuery 到 Snowflake 等資料庫中進行效能調校的查詢。
2. Python
Python 是資料工程的通用語言。建立 ETL 腳本、資料品質檢查、API 整合和排程工作流程都依賴 Python。預期需熟悉 pandas、PySpark、SQLAlchemy 和 boto3 等函式庫 [3]。
3. 雲端資料服務
AWS(S3、Redshift、Glue、EMR、Kinesis)、GCP(BigQuery、Cloud Storage、Dataflow、Dataproc、Pub/Sub)和 Azure(Synapse Analytics、Data Factory、Blob Storage、Event Hubs)提供平台層。深入了解一個平台並對第二個平台有工作級熟悉度,是市場期望 [3]。
4. ETL/ELT 管線開發
設計、建置和監控資料管線,從來源擷取資料,轉換以符合綱要和品質要求,並載入目標系統。了解何時根據目標架構使用 ETL 與 ELT 模式 [2]。
5. Apache Spark
PySpark 和 Spark SQL 用於大規模分散式資料處理。了解 RDD、DataFrame、執行計畫、分區策略,以及批次和串流工作負載的叢集配置 [9]。
6. 工作流程排程(Apache Airflow)
Apache Airflow 已成為編排、排程和監控資料管線的事實標準 [2]。建立 DAG、管理相依性、實作重試和告警,以及使用 Airflow API 是基本能力。Prefect 和 Dagster 等替代方案也受到重視。
7. 資料建模
設計維度模型(星型綱要、雪花綱要)、資料保險庫模型和非正規化結構用於分析。了解正規化、緩慢變動維度,以及不同使用情境下建模方法之間的取捨 [4]。
8. 串流和即時資料
Apache Kafka 用於事件串流,搭配串流處理框架(Kafka Streams、Apache Flink、Spark Structured Streaming)。了解恰好一次語義、視窗化、浮水印和消費者群組管理 [5]。
9. 資料倉儲
Snowflake、BigQuery、Amazon Redshift 和 Databricks Lakehouse 是主要平台。了解倉儲架構、叢集鍵、物化視圖、倉儲大小調整和查詢最佳化 [3]。
10. 資料湖和湖倉架構
在物件儲存(S3、GCS)上設計資料湖,使用 Apache Iceberg、Delta Lake 或 Apache Hudi 等表格格式,提供 ACID 交易、時間旅行和綱要演進。湖倉模式日益成為預設架構 [6]。
11. Docker 和容器基礎
容器化資料管線、在 Docker 中執行 Airflow,以及了解容器如何與排程平台互動。Kubernetes 知識對於在 Kubernetes 上執行 Spark 的團隊很有價值 [4]。
12. 版本控制(Git)
在 Git 儲存庫中管理管線程式碼、配置和基礎設施定義。Pull Request 工作流程、分支策略和程式碼審查參與是標準實踐 [2]。
13. 資料品質和測試
實作資料品質框架(Great Expectations、dbt tests、Soda)以驗證綱要、檢查空值、驗證參照完整性和監控資料新鮮度。資料品質是日益重要的優先事項 [7]。
14. dbt(Data Build Tool)
dbt 已成為分析工程的標準工具,將 SQL 轉換管理為版本控制的程式碼。了解 dbt 模型、測試、文件和增量物化策略 [6]。
15. 資料管線的 CI/CD
自動化管線測試、部署和跨環境升級。使用 GitHub Actions、GitLab CI 或類似工具建立資料管線 CI/CD 工作流程 [4]。
履歷配置: 按類別分組技能:語言、資料平台、排程與處理、雲端服務、工具。在工作經驗項目中始終包含資料量和處理指標。
軟技能
技術能力必須搭配有效跨資料團隊、工程團隊和業務利害關係人協作的技能 [9]。
1. 問題解決
資料管線會以不可預測的方式故障。系統性診斷來源資料變更、綱要漂移、基礎設施故障和效能下降是日常需求。
2. 與利害關係人溝通
將資料架構決策轉化為資料分析師、資料科學家、產品經理和業務主管能理解的語言。記錄管線行為、資料血緣和 SLA 承諾。
3. 與資料科學家和分析師協作
了解下游使用者的需求,建立滿足其對新鮮度、粒度和綱要結構特定要求的管線。
4. 文件撰寫
為管線架構、資料字典、綱要定義和操作手冊撰寫清晰的文件。良好的文件能縮短入職時間和事件解決時間。
5. 專案管理
資料工程專案通常跨越多個衝刺,並涉及跨團隊相依性。估算工作量、管理範圍和溝通進度的能力至關重要。
6. 對資料品質的敏感度
培養對資料異常的直覺:意外空值、量級下降、綱要變更和延遲激增。這種品質優先的思維方式區分出可靠的工程師。
7. 商業敏銳度
了解您所搬移資料的商業脈絡:支持哪些決策、哪些 SLA 重要,以及不良資料對組織的成本。
8. 適應力
資料工程工具鏈演進迅速。能在新工具解決真實問題時(而非僅因為它們流行)進行評估和採用的工程師,更受重視。
新興技能
資料工程格局持續演進。以下五項技能出現在越來越多的職缺中 [5][6][7]。
1. 資料契約
將資料生產者和消費者之間關於綱要、品質和交付保證的協議正式化。資料契約將軟體工程紀律帶入資料交換。
2. 資料 FinOps
最佳化雲端資料成本:倉儲大小調整、分區策略、資料生命週期政策和成本分配標籤。隨著資料量成長,成本管理成為工程職責。
3. 資料網格原則
去中心化的資料所有權、領域導向的資料產品和自助式資料基礎設施。雖然完整的資料網格實作很少見,但這些原則日益影響團隊結構和架構決策。
4. AI/ML 特徵工程管線
建立特徵儲存(Feast、Tecton)和即時特徵管線,以服務機器學習模型。架接資料工程和 ML 工程之間的鴻溝是一個日益成長的專業化方向。
5. 資料可觀測性
使用 Monte Carlo、Bigeye 或 Elementary 等平台來監控管線健康狀態、偵測異常和自動追蹤資料血緣。資料可觀測性是資料領域中等同於應用程式監控的概念。
如何在履歷上展示技能
資料工程 ATS 系統會掃描特定工具名稱和量化結果 [4]。
列出每一個工具。 寫「使用 Apache Airflow 排程 AWS EMR 上的 PySpark 作業建立 ETL 管線,每日處理 2TB 資料」,而非「建立資料管線」。
量化資料規模。 包含筆數、資料量(GB/TB/PB)、處理時間和 SLA 目標。規模是資料工程履歷的主要差異化因素。
展示架構決策。 描述您設計的系統,而非僅描述您撰寫的程式碼。「設計基於 Snowflake 的湖倉架構,服務 50 名分析師和 15 名資料科學家」展示了架構能力。
包含資料品質指標。 「實作 Great Expectations 資料品質套件,將生產資料事件減少 73%」展示了工程成熟度。
對應職缺用語。 若職缺寫「Databricks」,不要只寫「Spark」。若寫「Airflow」,不要寫「排程工具」。精確度對 ATS 比對很重要。
區分基礎設施和管線工作。 資料平台設置(Kubernetes 叢集、Airflow 部署、倉儲配置)不同於管線開發。展示兩方面的能力。
依職涯階段區分的技能
入門級(0-2 年)
- 紮實的 SQL 和 Python 基礎
- 基本 ETL 管線開發
- 熟悉一個雲端平台
- Git 版本控制和程式碼審查參與
- 了解資料建模基礎(星型綱要)
- 使用 dbt 或 Great Expectations 進行資料品質測試
中階(3-5 年)
- 進階 Spark 和分散式運算
- Airflow DAG 開發和管理
- 資料倉儲設計和最佳化
- 串流資料管線開發(Kafka)
- 資料管線的 CI/CD
- 擁有生產資料領域的所有權
資深(6 年以上)
- 資料平台架構和技術選型
- 跨團隊資料策略和治理領導
- 資料基礎設施的成本最佳化和 FinOps
- 指導和團隊能力發展
- 資料網格或資料產品架構設計
- 高階主管溝通和藍圖規劃
驗證技能的認證
資料工程認證驗證平台特定能力和廣泛的架構知識。
- Google Cloud Professional Data Engineer(Google Cloud):驗證在 GCP 上設計、建置和營運資料處理系統的能力。最受認可的資料工程認證之一。
- AWS Certified Data Engineer - Associate(Amazon Web Services):涵蓋 AWS 上的資料管線設計、資料儲存管理和資料營運。
- Databricks Certified Data Engineer Associate(Databricks):驗證對 Databricks Lakehouse 平台、Apache Spark 和 Delta Lake 的熟練度。
- Snowflake SnowPro Core Certification(Snowflake):展示對 Snowflake 架構、資料載入和查詢最佳化的能力。
- dbt Analytics Engineering Certification(dbt Labs):驗證在 dbt 生態系中進行分析工程工作流程的技能。
- Apache Airflow Fundamentals Certification(Astronomer):涵蓋 DAG 開發、任務管理和 Airflow 最佳實踐。
重點摘要
2026 年的資料工程需要 SQL 精通、Python 流利、雲端平台專業知識和排程工具熟練度的組合。隨著超過 94% 的企業上雲且資料量指數級成長,對能建立可靠、可擴展資料管線的工程師需求持續加速 [3]。圍繞具體工具、量化資料量和可衡量的商業成果來建構您的履歷。投資與目標雇主雲端平台一致的認證。
ResumeGeni 的 ATS 驅動履歷建立工具幫助資料工程師將技能對應到特定職缺描述,最大化面試回覆率。
常見問題
SQL 在 2026 年對資料工程師仍然重要嗎?
絕對重要。SQL 出現在絕大多數資料工程職缺中,是與資料倉儲、資料庫和 dbt 等現代工具互動的主要語言 [2]。精通進階 SQL(視窗函數、CTE、最佳化)是不可或缺的。
應該學 Spark 還是專注於 dbt 等 SQL 導向的工具?
兩者都要。Spark 對於大規模分散式處理至關重要,而 dbt 是分析工程轉換的標準。市場期望兩種範式的能力 [3]。
哪個雲端平台有最多資料工程職缺?
AWS 在整體市場佔有率上領先,其次是 Azure 和 GCP。但 GCP(BigQuery)和 Snowflake 擁有強大的資料特定生態系。根據目標雇主來選擇 [3]。
資料工程師需要機器學習技能嗎?
基本的 ML 素養有助於協作,但不需要深入的 ML 知識。建立特徵管線和了解模型服務基礎設施是一個日益受重視的專業化方向 [5]。
Airflow 知識有多重要?
非常重要。Airflow 在大量資料工程職缺中被提及。建立和維護生產 DAG 的實作經驗是強有力的差異化因素 [2]。
資料工程師和資料分析師有什麼區別?
資料工程師建置交付資料的基礎設施和管線。資料分析師使用該資料產生洞察和報表。工程師專注於可靠性、規模和效能;分析師專注於解讀和視覺化 [4]。
成為資料工程師需要碩士學位嗎?
不需要。雖然資訊科學或相關領域的學位很常見,但許多資料工程師以學士學位、培訓班訓練或自學技能進入該領域。展示的專案作品和認證可以替代高等學位 [8]。