Pytania na rozmowę kwalifikacyjną dla inżyniera AI — Ponad 30 pytań i odpowiedzi ekspertów
LinkedIn uznał stanowisko inżyniera sztucznej inteligencji za najszybciej rozwijającą się kategorię zawodową w 2025 roku, z prognozowanym wzrostem zatrudnienia o 26% do 2033 roku — ponad sześciokrotnie więcej niż średnia krajowa [1]. Ten eksplozywny popyt oznacza, że panele rekrutacyjne podnoszą poprzeczkę: należy spodziewać się rygorystycznych pytań z teorii ML, projektowania systemów na dużą skalę oraz wnikliwych pytań o radzenie sobie z niejednoznacznością, gdy modele zawodzą w produkcji. Ten przewodnik obejmuje pytania, które faktycznie pojawiają się na rozmowach kwalifikacyjnych dla inżynierów AI w firmach od FAANG po startupy serii A.
Kluczowe wnioski
- Rozmowy kwalifikacyjne dla inżynierów AI łączą klasyczne podstawy ML z nowoczesnymi tematami wdrażania LLM — architektury RAG, prompt engineering i fine-tuning to obecnie standardowe zagadnienia [2].
- Pytania behawioralne testują sposób komunikowania kompromisów technicznych osobom nietechnicznym oraz radzenie sobie z awariami modeli w produkcji.
- Pytania techniczne obejmują zakres od podstaw kompromisu obciążenie-wariancja po projektowanie systemów obsługujących miliony żądań na sekundę.
- Wykazanie odpowiedzialności od początku do końca — od potoku danych po monitoring — odróżnia doświadczonych kandydatów od tych, którzy znają tylko trenowanie modeli.
Pytania behawioralne
1. Opowiedz o sytuacji, gdy wdrożony model działał dobrze w testach, ale zawiódł w produkcji. Co się stało i jak zareagowano?
Odpowiedź eksperta: „Wdrożyliśmy model predykcji rezygnacji klientów, który osiągnął AUC 0,91 na zbiorze walidacyjnym, ale spadł do 0,73 w ciągu dwóch tygodni w produkcji. Przyczyną był dryf danych — dane treningowe odzwierciedlały wzorce zakupowe sprzed pandemii, a rozkład częstotliwości sesji znacząco się zmienił. Wdrożyłem automatyczne wykrywanie dryfu za pomocą Evidently AI, ustawiłem alerty gdy PSI (Population Stability Index) przekraczał 0,2 i przetrenowałem model na ruchomym oknie 90-dniowym. Odzyskaliśmy AUC 0,88 w jednym cyklu retreningu. Kluczowa lekcja: monitoring modeli nie jest opcjonalny — jest częścią wdrożenia."
2. Opisz sytuację, w której trzeba było wyjaśnić złożoną koncepcję ML osobie nietechnicznej na stanowisku kierowniczym.
Odpowiedź eksperta: „Nasz VP ds. Produktu chciał zrozumieć, dlaczego silnik rekomendacji nie może po prostu 'pokazywać najlepszych produktów'. Użyłem analogii: wyobraź sobie bibliotekarza, który poleca tylko bestsellery, kontra takiego, który uczy się historii czytelniczej każdego użytkownika. Wyjaśniłem kompromis eksploracja-eksploatacja na konkretnym przykładzie — pokazując, że podejście multi-armed bandit zwiększyło współczynnik klikalności o 18% w porównaniu ze statyczną listą 'najlepszych produktów'. Unikałem żargonu jak 'Thompson Sampling' i skupiłem się na wyniku biznesowym: bardziej zaangażowani użytkownicy."
3. Jak ustalane są priorytety projektów ML przy ograniczonych zasobach?
Odpowiedź eksperta: „Używam macierzy wpływ-wykonalność. Wpływ mierzy się metryką biznesową, na którą model miałby wpływ — przychody, retencja, koszty operacyjne. Czynniki wykonalności obejmują dostępność danych, koszt etykietowania i złożoność integracji. Oceniam również, czy heurystyka oparta na regułach mogłaby osiągnąć 80% wartości — jeśli tak, najpierw wdrażam heurystykę i inwestuję wysiłek ML tam, gdzie marginalna poprawa uzasadnia złożoność."
4. Opowiedz o sytuacji, gdy nie zgadzano się z kolegą co do podejścia do modelowania.
Odpowiedź eksperta: „Kolega opowiadał się za podejściem opartym na transformerze do naszego zadania wykrywania oszustw w danych tabelarycznych. Uważałem, że drzewa gradient boosting (XGBoost) są bardziej odpowiednie, biorąc pod uwagę nasze dane strukturalne i wymagania interpretacyjne zespołu compliance. Zaproponowałem dwutygodniowy test porównawczy z identycznymi kryteriami oceny. XGBoost osiągnął porównywalny F1 (0,94 vs 0,95) przy 10-krotnie szybszej inferencji i wbudowanej ważności cech. Wybraliśmy XGBoost. Spór był produktywny, ponieważ pozwoliliśmy danym zdecydować."
5. Opisz, jak poradzono sobie z wątpliwościami etycznymi w projekcie AI.
Odpowiedź eksperta: „Odkryliśmy, że nasz model selekcji CV miał nierówny wpływ na kandydatów z określonych grup demograficznych — karał nietradycyjne ścieżki kariery korelujące z niedoreprezentowanymi populacjami. Zgłosiłem to kierownictwu z dowodami ilościowymi: o 23% niższy wskaźnik oddzwonienia dla dotkniętej grupy. Wdrożyliśmy ograniczenia sprawiedliwości, dodaliśmy adversarial debiasing do potoku treningowego i ustanowiliśmy kwartalne audyty stronniczości."
6. Jak utrzymywana jest aktualność w szybko zmieniającym się krajobrazie AI?
Odpowiedź eksperta: „Piątkowe popołudnia poświęcam na czytanie artykułów — śledzę kanały arXiv filtrowane przez cs.LG i cs.CL oraz profile DBLP badaczy. Odtwarzam kluczowe wyniki w projektach weekendowych używając PyTorch. Uczestniczę też w jednej konferencji rocznie (NeurIPS lub ICML). Pozostawanie na bieżąco to obowiązek zawodowy — okres półtrwania wiedzy ML wynosi około 18 miesięcy [3]."
Pytania techniczne
7. Wyjaśnij kompromis obciążenie-wariancja i jego wpływ na dobór modeli.
Odpowiedź eksperta: „Obciążenie mierzy, jak daleko przewidywania modelu są od prawdziwych wartości — wysokie obciążenie oznacza niedopasowanie. Wariancja mierzy, jak bardzo przewidywania zmieniają się przy różnych danych treningowych — wysoka wariancja oznacza przeuczenie. Kompromis polega na tym, że redukcja obciążenia (dodanie złożoności) zwiększa wariancję i odwrotnie. W praktyce używam walidacji krzyżowej do wykrycia pozycji modelu na tym spektrum [4]."
8. Jak zaprojektowano by system RAG (Retrieval-Augmented Generation) dla wewnętrznej bazy wiedzy firmy?
Odpowiedź eksperta: „Potok ma cztery etapy: ingestion, retrieval, augmentation i generation. Do ingestion segmentuję dokumenty semantycznie i osadzam je w magazynie wektorów (Pinecone lub pgvector). Do retrieval używam wyszukiwania hybrydowego — gęste podobieństwo wektorowe plus dopasowanie słów kluczowych BM25. Top-k fragmenty są wstrzykiwane do promptu LLM jako kontekst. Implementuję śledzenie cytowań i mierzę jakość wyszukiwania NDCG [2]."
9. Jaka jest różnica między fine-tuningiem, LoRA a prompt engineeringiem? Kiedy stosuje się każde z nich?
Odpowiedź eksperta: „Pełny fine-tuning aktualizuje wszystkie wagi modelu danymi specyficznymi dla domeny — kosztowny, ale najwyższa jakość. LoRA (Low-Rank Adaptation) zamraża wagi bazowe i trenuje małe macierze dekompozycji niskiego rzędu, osiągając 90-95% jakości pełnego fine-tuningu za ułamek kosztu obliczeniowego. Prompt engineering nie wymaga treningu. Używam najpierw prompt engineeringu jako bazowy, LoRA gdy prompt engineering się ustabilizuje i mam 1000+ przykładów domenowych, a pełny fine-tuning tylko gdy domena jest dostatecznie różna od dystrybucji pretreningu [5]."
10. Wyjaśnij architekturę transformer na poziomie odpowiednim dla rozmowy technicznej.
Odpowiedź eksperta: „Transformer zastępuje rekurencję self-attention, umożliwiając równoległe przetwarzanie sekwencji. Każda warstwa ma multi-head self-attention, po którym następuje sieć feed-forward. Kodowania pozycyjne wstrzykują porządek sekwencji. Kluczową innowacją jest to, że złożoność uwagi wynosi O(n^2), ale umożliwia bezpośrednie zależności dalekiego zasięgu bez problemu zanikającego gradientu RNN [6]."
11. Jak ocenia się aplikację opartą na LLM poza zwykłą dokładnością?
Odpowiedź eksperta: „Używam wielowymiarowego frameworku oceny: poprawność faktyczna, istotność, kompletność, szkodliwość (toksyczność, stronniczość, wycieki PII) i opóźnienie (P50 i P99). Do automatycznej oceny używam LLM-as-Judge ze skalibrowanymi rubrykami. Śledzę wskaźnik halucynacji — mierząc twierdzenia w wyjściu względem dowodów [7]."
12. Jak radzono by sobie z nierównowagą klas w zbiorze danych do wykrywania oszustw, gdzie oszukańcze transakcje stanowią 0,1% danych?
Odpowiedź eksperta: „Nie resamplowałbym na ślepo. Zacząłbym od właściwej metryki — AUC-PR zamiast dokładności. Do modelowania użyłbym uczenia wrażliwego na koszty w XGBoost lub focal loss w sieciach neuronowych. ADASYN preferuję nad SMOTE. Najważniejsze — inwestycja w inżynierię cech: prędkość transakcji, wyniki anomalii geograficznych, nowość odcisku urządzenia."
13. Jakie strategie stosuje się do redukcji opóźnienia inferencji w produkcyjnym systemie ML?
Odpowiedź eksperta: „Hierarchia to: destylacja modelu, kwantyzacja (INT8 lub FP16), przycinanie, fuzja operatorów, optymalizacja batchingu i wybór sprzętu (GPU z TensorRT lub ONNX Runtime). Dla LLM: optymalizacja KV-cache, spekulacyjne dekodowanie i ciągłe batchowanie z vLLM [8]."
Pytania sytuacyjne
14. Przewidywania modelu są używane do decyzji kredytowych. Regulator prosi o wyjaśnienie, dlaczego konkretny wnioskodawca został odrzucony.
Odpowiedź eksperta: „Użyłbym narzędzi agnostycznych wobec modelu — wartości SHAP dla konkretnego przewidywania. Przedstawiłbym to jako wykres kaskadowy i dostarczył wyjaśnienia kontrfaktyczne [7]."
15. Dołączając do nowego zespołu, odkrywa się, że potok ML nie ma automatycznych testów ani monitoringu.
Odpowiedź eksperta: „Priorytetyzowałbym: (1) walidację danych z Great Expectations; (2) monitoring wydajności modelu; (3) testy integracyjne; (4) reprodukowalność."
16. Menedżer produktu prosi o funkcję wymagającą danych użytkowników budzących obawy dotyczące prywatności.
Odpowiedź eksperta: „Sformułowałbym konkretne ryzyko prywatności i zaproponował alternatywy zachowujące prywatność: differential privacy, federated learning lub k-anonimowość."
17. Zespół pracuje nad modelem od trzech miesięcy, ale wymagania biznesowe się zmieniły.
Odpowiedź eksperta: „Oceniłbym, co można wykorzystać ponownie, i przedstawił trzy opcje kierownictwu."
18. Odkryto, że dane treningowe zawierają PII, które nie zostały odpowiednio zanonimizowane.
Odpowiedź eksperta: „Natychmiastowe powstrzymanie: zatrzymanie treningu, kwarantanna danych, powiadomienie zespołu zarządzania danymi."
Pytania do zadania osobie prowadzącej rozmowę
- Jak wygląda stos infrastruktury ML — czy jest feature store i jak dojrzały jest potok MLOps?
- Jak obsługuje się monitoring i retrenowanie modeli w produkcji?
- Jaki jest stosunek pracy badawczej do inżynierii produkcyjnej?
- Jak zespół ocenia nowe architektury modeli?
- Jakie jest największe wyzwanie dotyczące jakości danych?
- Jak zespół podchodzi do odpowiedzialnej AI?
- Jak wygląda rotacja dyżurów dla systemów ML?
Format rozmowy kwalifikacyjnej
Rozmowy kwalifikacyjne dla inżynierów AI obejmują zazwyczaj 4-6 rund w ciągu 1-2 tygodni [2]. Obejmują selekcję wstępną, zadanie kodowe, rundę projektowania systemów, rundę behawioralną i rundę finalną z kadrą kierowniczą.
Jak się przygotować
- Utrwalenie podstaw ML. Gradient descent, regularyzacja, walidacja krzyżowa, metryki oceny [3].
- Ćwiczenie projektowania systemów. „Designing Machine Learning Systems" Chip Huyen jako główne źródło.
- Odświeżenie tematów LLM. RAG, fine-tuning, prompt engineering [2].
- Biegłe kodowanie w Python. NumPy, pandas, scikit-learn, PyTorch.
- Przygotowanie narracji projektów. Problem, Dane, Podejście, Wynik, Lekcja.
- ResumeGeni do budowy CV zoptymalizowanego pod ATS z kluczowymi słowami: „PyTorch", „MLOps", „RAG", „model serving".
Częste błędy na rozmowach kwalifikacyjnych
- Nadmierne skupienie na dokładności modelu przy ignorowaniu problemów produkcyjnych.
- Używanie żargonu bez zrozumienia.
- Pomijanie jakości danych w odpowiedziach.
- Brak dyskusji o przypadkach porażek.
- Ignorowanie kwestii etycznych [7].
- Niepytanie o dojrzałość MLOps.
- Niedocenianie wpływu biznesowego.
Kluczowe wnioski
- Rozmowy dla inżynierów AI w 2026 wymagają biegłości zarówno w klasycznym ML, jak i w nowoczesnym wdrażaniu LLM.
- Doświadczenie produkcyjne jest ważniejsze niż referencje badawcze.
- Świadomość etycznej AI to teraz sygnał rekrutacyjny.
- Użyj ResumeGeni do optymalizacji CV z kluczowymi słowami ATS.
FAQ
Jakie języki programowania powinien znać inżynier AI?
Python jest niezbędny. Znajomość C++, SQL i podstawowego skryptowania shell jest oczekiwana [4].
Jak ważny jest doktorat dla stanowisk inżyniera AI?
Dla większości firm nie jest wymagany. Silne portfolio projektów i doświadczenie produkcyjne mają równą lub większą wagę [3].
Jaki jest typowy zakres wynagrodzeń inżynierów AI?
Mediana wynosi około 145 080 dolarów. W czołowych firmach technologicznych: 150 000–350 000+ dolarów [1].
PyTorch czy TensorFlow?
PyTorch stał się dominującym frameworkiem. Zacznij od PyTorch [4].
Jak przejść z inżynierii oprogramowania do inżynierii AI?
Zacznij od budowania projektów ML end-to-end — konkursy Kaggle to dobry start [3].
Jakie certyfikaty są wartościowe?
AWS Machine Learning Specialty, Google Professional ML Engineer, specjalizacje DeepLearning.AI na Coursera.
Jak długo przygotowywać się do rozmowy?
4-8 tygodni: 40% teoria ML, 30% kodowanie, 20% projektowanie systemów, 10% przygotowanie behawioralne.
Cytaty: [1] Bureau of Labor Statistics, https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm [2] BrainStation, https://brainstation.io/career-guides/machine-learning-engineer-interview-questions [3] DataCamp, https://www.datacamp.com/blog/top-machine-learning-interview-questions [4] Netcom Learning, https://www.netcomlearning.com/blog/machine-learning-interview-questions [5] Medium, https://medium.com/@santosh.rout.cr7/ai-interview-evolution-what-2026-will-look-like-for-ml-engineers-55483eebbf1e [6] X0PA AI, https://x0pa.com/hiring/ai-engineer-interview-questions/ [7] Coursera, https://www.coursera.org/articles/ai-engineer-salary [8] InterviewQuery, https://www.interviewquery.com/p/ai-engineer-salary-2025-guide