Poradnik CV dla Data Scientist w Teksasie (2025)
BLS klasyfikuje 23 420 data scientists pracujących w Teksasie — drugi co do wielkości stanowy rynek zatrudnienia dla tej roli w USA — jednak analiza otwartych ofert na Indeed i LinkedIn pokazuje, że większość CV kandydatów nie wspomina o konkretnych metrykach ewaluacji modeli, produkcyjnych frameworkach ML ani o wpływie biznesowym analiz, a to właśnie sygnały, które w pierwszej kolejności filtrują osoby rekrutujące u teksańskich pracodawców takich jak Capital One, USAA, Dell Technologies i ExxonMobil [1] [5] [6].
Kluczowe wnioski (podsumowanie)
- Co wyróżnia CV data scientist: rekruterzy oczekują portfolio skwantyfikowanych wyników modeli (poprawa AUC-ROC, redukcja opóźnień, wpływ na przychody) wraz z konkretnym stosem technologicznym — nie tylko listy języków programowania [7].
- 3 najważniejsze elementy dla rekruterów w Teksasie: doświadczenie ML na poziomie produkcyjnym (nie tylko notebooki Jupyter), wiedza domenowa dopasowana do dominujących branż Teksasu (energia, fintech, opieka zdrowotna, obronność) oraz umiejętność komunikowania wyników nietechnicznym interesariuszom [3] [4].
- Najczęstszy błąd: wymienienie każdej zaimportowanej biblioteki Pythona zamiast pokazania pełnego zarządzania projektem — od zdefiniowania problemu i inżynierii cech po wdrożenie i monitorowanie [7].
- Kontekst wynagrodzeń w Teksasie: mediana wynagrodzenia data scientist w Teksasie wynosi 106 540 $/rok, o 24,4% poniżej mediany krajowej, choć 90. percentyl sięga 169 310 $ [1].
Czego szukają rekruterzy?
Głębia techniczna wykraczająca poza podstawy. Rekruterzy u Indeed (Austin), AT&T (Dallas) i Phillips 66 (Houston) szukają dowodów zaawansowanego modelowania statystycznego — konkretnych algorytmów (XGBoost, LightGBM, architektury transformerów), optymalizowanych metryk ewaluacji (F1 score, MAP@K, RMSE) i frameworków wdrożeniowych (MLflow, SageMaker, Kubeflow) [4] [7].
Doświadczenie produkcyjne ML. Poszukiwane słowa kluczowe: CI/CD dla ML, monitorowanie modeli, magazyny cech, infrastruktura testów A/B i orkiestracja potoków danych (Airflow, Prefect, Dagster) [5] [6].
Dopasowanie domenowe do branż teksańskich. Energia (analityka upstream, modelowanie złóż, predykcyjne utrzymanie ruchu), fintech (wykrywanie oszustw, ryzyko kredytowe, handel algorytmiczny), opieka zdrowotna (kliniczne NLP, analityka roszczeń) i obronność/lotnictwo (fuzja sensorów, wykrywanie anomalii) [3] [5].
Najlepszy format CV
Odwrotnie chronologiczny: standard dla 2+ lat doświadczenia. Poprawnie analizowany przez platformy ATS (Greenhouse, Lever, Workday) [12]. Łączony (hybrydowy): dla osób zmieniających karierę z inżynierii oprogramowania, finansów ilościowych lub badań naukowych. W Teksasie wielu data scientists przechodzi z ról inżynierii naftowej lub biostatystyki [3]. Funkcjonalny: rzadko odpowiedni [11] [13].
Kluczowe umiejętności
Umiejętności techniczne
- Python (NumPy, pandas, scikit-learn, PyTorch/TensorFlow) [4]
- SQL (złożone złączenia, funkcje okna, CTE) [5]
- Modelowanie statystyczne [4]
- Machine learning [7]
- Deep learning (CNN, RNN/LSTM, transformery) [4]
- MLOps i wdrażanie (Docker, Kubernetes, MLflow, SageMaker, Vertex AI) — umiejętności wdrożeniowe generują premię wynagrodzeniową. Data scientists w 90. percentylu w Teksasie (169 310 $) niemal powszechnie mają doświadczenie MLOps [1] [6]
- Narzędzia big data (Spark/PySpark, Databricks) — niezbędne dla teksańskich firm energetycznych przetwarzających terabajty danych sejsmicznych lub z sensorów IoT [5]
- Wizualizacja danych (Matplotlib, Seaborn, Plotly, Tableau, Power BI) [4]
- Platformy chmurowe (AWS, GCP, Azure) [6]
- Kontrola wersji (Git, GitHub/GitLab, DVC) [7]
Umiejętności miękkie
- Komunikacja z interesariuszami [3] [6]
- Definiowanie problemu [4]
- Współpraca międzyzespołowa — w teksańskim sektorze energetycznym oznacza to często współpracę z geofizukami i inżynierami wiertnictwa [3]
- Ciekawość intelektualna i samokształcenie [4]
Punkty doświadczenia (formuła XYZ)
Poziom początkujący (0–2 lata)
- Zmniejszyłem błąd przewidywania odejść klientów o 18% (RMSE z 0,42 do 0,34) projektując 23 cechy behawioralne z danych clickstream i trenując klasyfikator LightGBM w Pythonie [7].
- Zautomatyzowałem cotygodniowe raportowanie KPI dla 12-osobowego zespołu marketingowego budując dashboard Tableau połączony z BigQuery, eliminując 6 godzin ręcznej pracy w Excelu tygodniowo [4].
- Oczyściłem i ustandaryzowałem 2,3 mln rekordów pacjentów z 4 systemów źródłowych za pomocą pandas i fuzzy matchingu, osiągając 96,5% dokładności rozwiązywania encji dla startupu analityki zdrowotnej w Houston [5].
- Zaprojektowałem i przeanalizowałem 14 testów A/B w ciągu 6 miesięcy z bayesowskim testowaniem hipotez w Pythonie (PyMC3), bezpośrednio informując decyzje produktowe zwiększające aktywację użytkowników o 9% [7].
- Zbudowałem potok klasyfikacji tekstu za pomocą spaCy i scikit-learn do kategoryzacji ponad 50 000 zgłoszeń w 8 typów problemów z makro-F1 91%, skracając średni czas routingu z 4,2 godziny do 45 minut [4].
Poziom średniozaawansowany (3–7 lat)
- Opracowałem model wykrywania oszustw w czasie rzeczywistym (ensemble XGBoost) przetwarzający 1,2 mln dziennych transakcji w teksańskiej firmie fintech, wykrywając 4,7 mln $ oszukańczej aktywności w 12 miesięcy przy wskaźniku fałszywych alarmów poniżej 0,3% [5] [7].
- Kierowałem migracją 6 batchowych potoków ML z on-premise Hadoop do AWS SageMaker, skracając czas ponownego trenowania z 8 godzin do 47 minut i obniżając koszty infrastruktury o 62% (340 000 $ rocznie) [6].
- Zbudowałem system prognozowania popytu z ensemblami Prophet i LSTM dla sieci handlowej z 200 lokalizacjami, poprawiając dokładność alokacji zapasów o 24% i zmniejszając braki o 2,1 mln $/rok [7].
- Zaprojektowałem architekturę magazynu cech (Feast + Redis) obsługującą 15 modeli produkcyjnych w 3 zespołach produktowych, redukując duplikację obliczeń cech o 70% [4].
- Mentorowałem 4 juniorskich data scientists i ustanowiłem pierwszy standard dokumentacji modeli zespołu (model cards) [3].
Poziom seniorski (8+ lat)
- Zdefiniowałem i realizowałem strategię ML dla linii produktowej o 50 mln $ przychodu w firmie SaaS z Dallas, budując zespół 8 osób i dostarczając 3 modele produkcyjne odpowiadające za 31% wzrostu nowych przychodów [6].
- Zbudowałem platformę MLOps (Kubeflow + MLflow + Airflow) obsługującą ponad 40 modeli produkcyjnych, skracając średni czas wdrożenia z 6 tygodni do 4 dni [7].
- Opublikowałem 3 recenzowane artykuły o metodach wnioskowania przyczynowego (NeurIPS workshop, AAAI) [3].
- Zarządzałem rocznym budżetem obliczeniowym w chmurze 2,8 mln $ (AWS), obniżając koszty inferencji o 44% [5].
- Współpracowałem z Chief Data Officer przy ustanawianiu ram Responsible AI firmy [4] [7].
Przykłady podsumowania zawodowego
Poziom początkujący
Data scientist z tytułem magistra statystyki z UT Austin i 1,5 rokiem doświadczenia. 3 projekty ML end-to-end, w tym model przewidywania odejść z AUC-ROC 0,87. Z siedzibą w Austin [1] [3].
Poziom średniozaawansowany
5 lat doświadczenia w budowaniu systemów ML w fintech i e-commerce. W teksańskiej firmie płatniczej zbudowałem model scoringu transakcji w czasie rzeczywistym obsługujący 1,2 mln prognoz dziennie z opóźnieniem poniżej 50 ms, zapobiegając stratom z oszustw na 4,7 mln $ rocznie. AWS Certified Machine Learning – Specialty [1] [5].
Poziom seniorski
Staff data scientist z ponad 10-letnim doświadczeniem w kierowaniu zespołami ML. Zbudowałem zespół 8 data scientists w firmie SaaS z Dallas, dostarczając modele produkcyjne odpowiadające za 31% wzrostu nowych przychodów z linii produktowej o 50 mln $. Ekspertyza w wnioskowaniu przyczynowym, optymalizacji bayesowskiej i architekturze MLOps. 3 recenzowane publikacje (NeurIPS, AAAI) [1] [6].
Wykształcenie i certyfikaty
Wymagane co najmniej tytuł licencjata, preferowane studia magisterskie lub doktoranckie [2] [8]. Uczelnie referencyjne: UT Austin, Texas A&M, Rice University, SMU.
Certyfikaty [6] [8]: AWS Certified Machine Learning – Specialty, Google Professional Machine Learning Engineer, Databricks Certified Machine Learning Professional, TensorFlow Developer Certificate, Microsoft Certified: Azure Data Scientist Associate.
Słowa kluczowe ATS
Umiejętności techniczne
Machine learning, deep learning, przetwarzanie języka naturalnego (NLP), wizja komputerowa, modelowanie statystyczne, analityka predykcyjna, prognozowanie szeregów czasowych, inżynieria cech, testy A/B, wnioskowanie przyczynowe
Narzędzia i oprogramowanie
Python, R, SQL, TensorFlow, PyTorch, scikit-learn, Spark/PySpark, Databricks, SageMaker, MLflow, Airflow, Tableau, Docker
Terminy branżowe
Wdrażanie modeli, monitorowanie modeli, MLOps, potok danych, magazyn cech, śledzenie eksperymentów, zarządzanie modelami, odpowiedzialny AI
Kluczowe wnioski
CV musi wykazywać głębię techniczną, dojrzałość produkcyjną i wpływ biznesowy. Teksas zatrudnia 23 420 data scientists z medianą 106 540 $ i 90. percentylem 169 310 $ [1]. Należy dostosować CV do dominujących branż Teksasu (energia, fintech, opieka zdrowotna, obronność), stosować formułę XYZ i dołączyć linki do GitHub lub projektów. Stwórz swoje CV z Resume Geni — rozpocznij za darmo.
Najczęściej zadawane pytania
Jaką długość powinno mieć CV?
Jedna strona do poziomu średniozaawansowanego (~7 lat). Dwie strony tylko dla seniorów z publikacjami, patentami lub wielozespołowym przywództwem [11] [13].
Czy umieścić link do GitHub?
Tak — repozytoria powinny być czyste, udokumentowane i istotne [6].
Jakie wynagrodzenie w Teksasie?
Mediana 106 540 $, 10. percentyl 61 230 $, 90. percentyl 169 310 $ [1]. Teksas nie ma stanowego podatku dochodowego.
Czy potrzeba tytułu magistra?
Silnie preferowany, ale nie uniwersalnie wymagany [2] [8]. Kandydaci z tytułem licencjata i 3+ latami doświadczenia są regularnie zatrudniani w startupach w Austin i Dallas [5] [6].
Jak dostosować CV do teksańskich firm energetycznych?
Role w ExxonMobil, Chevron, ConocoPhillips i Baker Hughes w Houston kładą nacisk na analizę szeregów czasowych, przetwarzanie danych geoprzestrzennych, wykrywanie anomalii sensorowych i optymalizację w warunkach niepewności. Należy używać terminologii branżowej: „prognozowanie produkcji", „symulacja złoża", „predykcyjne utrzymanie ruchu urządzeń obrotowych", „interpretacja danych sejsmicznych" [3] [5].