Guide du CV pour Data Scientist

L'emploi des data scientists devrait croître de 34 % entre 2024 et 2034 — soit près de sept fois la moyenne de l'ensemble des professions — avec environ 23 400 postes ouverts par an, ce qui en fait l'un des métiers à la croissance la plus rapide de l'économie américaine [1].

Points clés (résumé)

  • Quantifiez chaque projet : précision du modèle, impact sur le chiffre d'affaires, taille du jeu de données, latence d'inférence.
  • Listez explicitement votre stack ML/IA — TensorFlow, PyTorch, scikit-learn, Spark — car les parsers ATS recherchent des noms de frameworks, pas des expressions génériques comme « outils de machine learning ».
  • Incluez des liens vers vos recherches publiées, vos classements Kaggle ou un portfolio de notebooks Jupyter.
  • Adaptez votre résumé professionnel au sous-domaine visé : NLP, vision par ordinateur, systèmes de recommandation ou expérimentation/tests A/B.
  • Démontrez vos compétences de traduction métier — la capacité à transformer des résultats statistiques en décisions produit concrètes.

Que recherchent les recruteurs ?

Les recruteurs en data science évaluent les candidats sur deux axes : la profondeur technique et l'impact métier. Un doctorant incapable d'expliquer comment son modèle a fait bouger un indicateur produit perdra face à un titulaire de master ayant généré une hausse de 15 % de la conversion grâce à des tests A/B rigoureux.

L'alignement du toolkit technique constitue le premier filtre. Recruteurs et systèmes ATS recherchent des frameworks et langages spécifiques. Python domine avec 51 % d'utilisation chez les développeurs au niveau mondial [2], mais les postes en data science exigent aussi une maîtrise de SQL, une connaissance du calcul distribué (Spark, Databricks) et la maîtrise d'au moins un framework de deep learning. Si l'offre mentionne PyTorch et que vous ne listez que TensorFlow, ajoutez les deux — à condition d'avoir une expérience réelle.

La rigueur statistique distingue les data scientists des analystes de données. Les recruteurs cherchent des preuves de votre compréhension du design expérimental, des tests d'hypothèses, de l'inférence causale et des limites des données observationnelles. Des formulations comme « j'ai conçu et analysé des tests A/B » ou « j'ai construit des modèles d'inférence causale pour estimer les effets de traitement » signalent que vous raisonnez en scientifique, pas simplement en développeur.

La narration métier est le troisième pilier. Les data scientists les plus impactants formulent leur travail en termes de chiffre d'affaires, d'engagement utilisateur, de réduction des coûts ou d'atténuation des risques. Un CV qui indique « j'ai construit un modèle de prédiction du churn avec une AUC de 0,87 » est correct. Un CV qui précise « j'ai construit un modèle de prédiction du churn (AUC 0,87) ayant identifié 2 300 comptes à risque, permettant à l'équipe de rétention d'économiser 1,4 M$ de revenus récurrents annuels » est nettement plus percutant.

Les recruteurs valorisent également l'expertise sectorielle. Un data scientist postulant dans le secteur de la santé doit mettre en avant son expérience avec les données cliniques, la conformité HIPAA et la terminologie médicale. Un candidat à un poste en fintech doit souligner la détection de fraude, la modélisation du risque ou le scoring de crédit. Les CV génériques en data science sous-performent par rapport à ceux qui sont adaptés au domaine [3].

Meilleur format de CV

Format antéchronologique avec une mise en page sur une seule colonne. Les CV de data scientist gagnent à inclure une section Compétences techniques dédiée, placée en haut du document, car les responsables du recrutement doivent vérifier rapidement l'alignement du stack.

En-tête : Nom, localisation, e-mail, LinkedIn, GitHub, et éventuellement Google Scholar ou site personnel. Si vous avez des publications ou des classements Kaggle, indiquez les liens.

Ordre des sections : Résumé professionnel, Compétences techniques, Expérience professionnelle, Projets/Recherche, Formation, Certifications, Publications (le cas échéant).

Organisation des compétences techniques : Langages (Python, R, SQL, Scala), Frameworks ML (TensorFlow, PyTorch, scikit-learn, XGBoost), Ingénierie des données (Spark, Airflow, dbt), Visualisation (Tableau, Matplotlib, Plotly), Cloud (AWS SageMaker, GCP Vertex AI, Databricks).

Longueur : Une page pour les candidats ayant moins de 5 ans d'expérience. Deux pages pour les data scientists seniors, ingénieurs ML ou chercheurs ayant des publications. Le salaire annuel médian des data scientists s'élevait à 112 590 $ en mai 2024 [1] — ce sont des postes seniors qui justifient une documentation détaillée de l'impact.

Compétences clés

Compétences techniques

  • Langages de programmation : Python, R, SQL, Scala, Julia
  • Frameworks ML/DL : TensorFlow, PyTorch, scikit-learn, XGBoost, LightGBM, Hugging Face Transformers
  • Méthodes statistiques : Tests d'hypothèses, analyse de régression, inférence bayésienne, inférence causale, prévision de séries temporelles
  • Ingénierie des données : Apache Spark, Airflow, dbt, conception de pipelines ETL, data warehousing
  • Expérimentation : Conception de tests A/B, multi-armed bandits, modélisation d'uplift, analyse de puissance statistique
  • NLP : Tokenisation, embeddings, architectures transformer, analyse de sentiment, reconnaissance d'entités nommées
  • Vision par ordinateur : CNNs, détection d'objets (YOLO, Faster R-CNN), segmentation d'images, transfer learning
  • Visualisation : Tableau, Power BI, Matplotlib, Seaborn, Plotly, notebooks Jupyter
  • Plateformes Cloud ML : AWS SageMaker, Google Vertex AI, Azure ML, Databricks, MLflow
  • Feature engineering : Feature stores, réduction de dimensionnalité (PCA, t-SNE), stratégies d'encodage

Compétences comportementales

  • Traduction métier : Convertir des résultats statistiques en recommandations concrètes pour des parties prenantes non techniques
  • Pensée expérimentale : Concevoir des expériences rigoureuses qui isolent les effets causaux de la corrélation
  • Collaboration transversale : Travailler avec les équipes produit, ingénierie et marketing
  • Rédaction technique : Documenter les méthodologies, hypothèses et limites dans des notebooks reproductibles
  • Communication avec les parties prenantes : Présenter les résultats aux dirigeants avec des visualisations claires et des synthèses en langage accessible

Exemples de réalisations professionnelles

  1. Développé un modèle de prédiction du churn client (XGBoost, AUC 0,89) ayant identifié 3 100 comptes entreprise à risque, permettant une approche proactive qui a retenu 2,8 M$ de revenus récurrents annuels.
  2. Conçu et analysé 45 tests A/B sur l'ensemble du funnel produit, en appliquant des tests d'hypothèses bayésiens pour réduire le temps de décision de 30 % tout en maintenant la rigueur statistique.
  3. Construit un pipeline NLP avec Hugging Face Transformers pour classifier 1,2 million de tickets de support en 28 catégories, réduisant le temps de triage manuel de 65 % et améliorant la précision de la première réponse.
  4. Créé un moteur de recommandation en temps réel utilisant le filtrage collaboratif et des embeddings de deep learning, augmentant le panier moyen de 14 % pour une base de 8 millions d'utilisateurs actifs mensuels.
  5. Développé un modèle de détection de fraude (LightGBM) traitant 500 000 transactions quotidiennes avec une précision de 97,3 % et un rappel de 94,1 %, évitant 4,2 M$ de charges frauduleuses annuelles.
  6. Construit un pipeline automatisé de feature engineering avec Apache Spark et Airflow, traitant 12 To de données brutes de parcours de navigation en 340 features de production et réduisant le temps d'itération de modèle de 2 semaines à 3 jours.
  7. Mené une analyse d'inférence causale par la méthode des doubles différences pour mesurer l'impact d'un changement de tarification, identifiant une hausse de 7 % de la conversion avec un intervalle de confiance à 95 % [5,2 %, 8,8 %].
  8. Déployé 8 modèles de ML en production avec MLflow et AWS SageMaker, en mettant en place des tableaux de bord de suivi du drift, de la latence et de la précision en temps réel.
  9. Dirigé un projet de vision par ordinateur utilisant le transfer learning (ResNet-50) pour détecter les défauts de fabrication avec une précision de 99,2 %, réduisant les coûts de contrôle qualité de 380 000 $ par an.
  10. Construit un modèle de prévision de séries temporelles (ensemble Prophet + LSTM) pour la planification de la demande, réduisant les surstocks de 22 % sur 1 400 références.
  11. Développé un framework de segmentation client par k-means clustering et analyse RFM sur 2,3 millions d'utilisateurs, permettant des campagnes marketing personnalisées ayant augmenté le taux de clic des e-mails de 28 %.
  12. Créé un système automatisé de surveillance de la qualité des données signalant le drift de schéma, les pics de valeurs nulles et les changements de distribution sur plus de 200 pipelines de données, réduisant les défaillances de modèles en aval de 40 %.
  13. Publié 3 articles évalués par des pairs sur le transfer learning pour le NLP en contexte de faibles ressources à l'ACL et à l'EMNLP, recueillant plus de 120 citations en 18 mois.
  14. Réduit la latence d'inférence de 340 ms à 45 ms grâce à la quantification du modèle et à l'optimisation ONNX Runtime, permettant le scoring en temps réel pour l'équipe de classement de la recherche.
  15. Encadré 5 data scientists juniors, en instaurant un programme de partage de connaissances avec des sessions bimensuelles de lecture d'articles et des standards de revue de code.

Exemples de résumé professionnel

Data Scientist Senior (7+ ans) : Data scientist senior avec 8 ans d'expérience dans la construction de systèmes ML en production à grande échelle. Conception de frameworks d'expérimentation ayant exécuté plus de 200 tests A/B par an, contribuant directement à 18 M$ de revenus incrémentaux sur une plateforme e-commerce Series D. Expertise approfondie en inférence causale, NLP (Transformers, BERT) et systèmes de recommandation en temps réel. Chercheur publié avec 4 articles dans des conférences de premier plan (NeurIPS, ACL). Maîtrise de Python, Spark, TensorFlow et AWS SageMaker.

Data Scientist Confirmé (3-5 ans) : Data scientist avec 4 ans d'expérience en ML appliqué à la fintech. Construction de modèles de détection de fraude et de scoring de crédit servant plus de 2 millions d'utilisateurs, atteignant 97 % de précision tout en respectant la réglementation. Compétences en Python, scikit-learn, XGBoost et SQL avec une expérience de déploiement en production via Docker et MLflow. Communicateur efficace qui traduit les résultats de modèles en recommandations métier pour les équipes produit et risque.

Data Scientist Débutant (0-2 ans) : Titulaire d'un master en statistique de l'UC Berkeley avec une expérience de recherche en méthodes bayésiennes pour les séries temporelles. Stage de 6 mois en data science dans une startup de santé, où j'ai construit un modèle de prédiction de réadmission des patients (AUC 0,84) utilisé par 15 hôpitaux. Maîtrise de Python, R, SQL, PyTorch et Tableau. Kaggle Expert avec un classement parmi les 5 % meilleurs de la Tabular Playground Series.

Formation et certifications

La plupart des postes de data scientist exigent au minimum un diplôme de premier cycle dans un domaine quantitatif — statistique, mathématiques, informatique, économie ou physique. Le BLS rapporte qu'environ 245 900 data scientists étaient en poste en 2024, nombre d'employeurs préférant des candidats titulaires d'un master ou d'un doctorat pour les postes seniors [1].

Certifications pertinentes :

  • AWS Certified Machine Learning – Specialty (Amazon Web Services)
  • Google Professional Machine Learning Engineer (Google Cloud)
  • TensorFlow Developer Certificate (Google)
  • IBM Data Science Professional Certificate (IBM/Coursera)
  • Microsoft Certified: Azure Data Scientist Associate (Microsoft)
  • Databricks Certified Machine Learning Professional (Databricks)

Pour les diplômes, indiquez l'intitulé, l'établissement, l'année d'obtention et les cours pertinents ou le titre de votre mémoire. Un mémoire sur les « Méthodes bayésiennes pour l'inférence causale dans les données observationnelles de santé » en dit bien plus au recruteur que « Master en Statistique ».

Erreurs courantes sur les CV

  1. Commencer par les outils plutôt que par les résultats. « Expérience avec Python, TensorFlow et Spark » relève de la section compétences, pas du résumé professionnel. Votre résumé doit ouvrir sur l'impact : modèles déployés, chiffre d'affaires généré, décisions influencées.

  2. Omettre les métriques de performance du modèle. Affirmer que vous avez « construit un modèle de classification » sans préciser l'exactitude, l'AUC, la précision, le rappel ou le score F1, c'est comme si un commercial omettait son taux d'atteinte d'objectifs. Incluez la métrique la plus pertinente pour le cas d'usage.

  3. Ne pas démontrer l'impact métier. Un modèle ayant amélioré l'AUC de 0,82 à 0,91 est techniquement impressionnant, mais le CV doit aussi expliquer que cette amélioration a « évité 1,2 M$ de pertes annuelles liées à la fraude » ou « augmenté la conversion de leads qualifiés de 19 % ». Reliez les chiffres aux résultats financiers [4].

  4. Négliger la composante ingénierie des données. Les data scientists modernes construisent des pipelines, gèrent des feature stores et déploient des modèles en production. Si votre CV ne montre que des analyses dans des notebooks Jupyter, vous donnez l'impression de ne pas pouvoir livrer en production.

  5. Lister des cours non pertinents. « Introduction à la programmation » ou « Calcul I » sur un CV de data scientist avec 4 ans d'expérience gaspille de l'espace. Ne listez que les cours avancés qui vous distinguent : « Inférence causale », « Modèles génératifs profonds », « Apprentissage par renforcement ».

  6. Utiliser un format de CV académique pour des postes en entreprise. Les CV en entreprise privilégient l'impact et la concision plutôt que des listes exhaustives de publications et de présentations en conférences. Adaptez votre format à votre audience.

Mots-clés ATS

Les systèmes ATS utilisés par 99 % des entreprises du Fortune 500 recherchent des correspondances de mots-clés entre votre CV et la description du poste [3]. Distribuez ces termes naturellement dans l'ensemble de votre CV.

ML/IA fondamentaux : Machine learning, deep learning, réseaux de neurones, traitement du langage naturel, vision par ordinateur, apprentissage par renforcement, IA générative, LLMs, modèles transformer

Frameworks et outils : Python, R, SQL, TensorFlow, PyTorch, scikit-learn, XGBoost, LightGBM, Hugging Face, Spark, Airflow, dbt, Jupyter

Méthodes : Tests A/B, tests d'hypothèses, régression, classification, clustering, séries temporelles, inférence causale, méthodes bayésiennes, feature engineering, réduction de dimensionnalité

Plateformes et déploiement : AWS SageMaker, GCP Vertex AI, Azure ML, Databricks, MLflow, Docker, Kubernetes, surveillance de modèles, CI/CD pour le ML

Données : ETL, pipelines de données, data warehousing, qualité des données, Snowflake, BigQuery, Redshift, Tableau, Power BI

Points clés

Un CV de data scientist doit démontrer à la fois une sophistication statistique et un impact métier. Commencez par un résumé professionnel quantifié mentionnant votre sous-domaine et l'envergure de votre impact. Organisez les compétences techniques par catégorie afin que les recruteurs évaluent rapidement l'alignement du stack. Rédigez des réalisations qui associent les métriques du modèle aux résultats métier — l'AUC seule ne décroche pas d'entretiens, mais l'AUC reliée au chiffre d'affaires, si. Incluez des liens vers vos travaux publiés, votre profil Kaggle ou vos dépôts GitHub qui illustrent votre raisonnement analytique. Avec une croissance projetée de 34 % jusqu'en 2034, la demande de data scientists est exceptionnelle, mais la concurrence l'est tout autant [1].

Envie de voir comment votre CV de data scientist se positionne ? Testez le vérificateur ATS gratuit de ResumeGeni pour comparer votre CV avec de véritables descriptions de poste.

Questions fréquemment posées

Faut-il un doctorat pour devenir data scientist ? Non. Si le doctorat est apprécié pour les postes à forte composante recherche, nombre de postes en entreprise privilégient les compétences appliquées et l'impact métier aux diplômes. Le BLS indique qu'une licence est la formation type requise à l'entrée, même si le master se généralise [1]. Démontrer une expérience en ML en production et des résultats métier mesurables compte davantage que le niveau de diplôme.

Faut-il inclure les compétitions Kaggle sur son CV ? Oui, si vos classements sont significatifs (top 10 % ou mieux). Les compétitions Kaggle démontrent des compétences ML pratiques et la capacité à itérer sur la performance d'un modèle. Mentionnez votre classement, le nom de la compétition et les techniques originales employées.

Comment présenter des projets sans violer les clauses de confidentialité ? Décrivez la catégorie du problème, la méthodologie, l'échelle et l'impact en utilisant des métriques anonymisées ou généralisées. Au lieu de nommer le client, écrivez « distributeur du Fortune 500 » et, au lieu de montants exacts, utilisez des améliorations en pourcentage. La plupart des employeurs comprennent les contraintes de confidentialité.

Python ou R — lequel lister en premier ? Python, sauf si le poste visé privilégie R (fréquent en biostatistique, pharmacie et milieu académique). L'enquête Stack Overflow 2024 affiche Python à 51 % d'utilisation parmi les développeurs, loin devant R [2]. Toutefois, lister les deux signale une polyvalence appréciée.

Faut-il inclure les compétences en ingénierie des données ? Absolument. La frontière entre data scientist et ingénieur ML s'estompe. Les employeurs attendent de plus en plus que les data scientists construisent des pipelines de production, pas seulement des prototypes dans des notebooks. Des compétences comme Spark, Airflow, Docker et MLflow démontrent votre capacité à mettre des modèles en production.

Quelle est l'importance des publications ? Les publications constituent un atout de poids pour les postes seniors et de recherche, mais ne sont pas exigées pour les postes appliqués. Si vous en avez, incluez une section Publications avec le nom de la conférence, l'année et une brève description de la contribution.


Citations :

[1] Bureau of Labor Statistics, "Data Scientists: Occupational Outlook Handbook," U.S. Department of Labor, https://www.bls.gov/ooh/math/data-scientists.htm

[2] Stack Overflow, "2024 Developer Survey: Technology," https://survey.stackoverflow.co/2024/technology

[3] Jobscan, "2025 Applicant Tracking System (ATS) Usage Report," https://www.jobscan.co/blog/fortune-500-use-applicant-tracking-systems/

[4] Jobscan, "The State of the Job Search in 2025," https://www.jobscan.co/state-of-the-job-search

[5] Bureau of Labor Statistics, "Occupational Employment and Wages, May 2024: 15-2051 Data Scientists," https://www.bls.gov/oes/2023/may/oes152051.htm

[6] Bureau of Labor Statistics, "Data Scientists: How to Become One," https://www.bls.gov/ooh/math/data-scientists.htm#tab-4

[7] Stack Overflow, "2024 Developer Survey," https://survey.stackoverflow.co/2024/

[8] Bureau of Labor Statistics, "Math Occupations," https://www.bls.gov/ooh/math/

See what ATS software sees Your resume looks different to a machine. Free check — PDF, DOCX, or DOC.
Check My Resume

Tags

data scientist guide cv
Blake Crosley — Former VP of Design at ZipRecruiter, Founder of Resume Geni

About Blake Crosley

Blake Crosley spent 12 years at ZipRecruiter, rising from Design Engineer to VP of Design. He designed interfaces used by 110M+ job seekers and built systems processing 7M+ resumes monthly. He founded Resume Geni to help candidates communicate their value clearly.

12 Years at ZipRecruiter VP of Design 110M+ Job Seekers Served

Ready to test your resume?

Get your free ATS score in 30 seconds. See how your resume performs.

Try Free ATS Analyzer