Preguntas en entrevistas para Data Scientist — Más de 30 preguntas y marcos de respuesta de expertos
Se proyecta que el empleo de data scientists crecerá un 34 % entre 2024 y 2034 — casi nueve veces el promedio de todas las ocupaciones — con aproximadamente 23.400 vacantes anuales, lo que lo convierte en uno de los roles de mayor crecimiento en la economía estadounidense [1].
Puntos clave
- Las entrevistas para data scientists generalmente incluyen cuatro rondas diferenciadas: programación técnica, ejecución analítica, razonamiento analítico y evaluación conductual [2].
- Las preguntas de casos de estudio dominan el proceso — los entrevistadores quieren ver que puedes traducir problemas de negocio vagos en enfoques analíticos estructurados, no solo escribir SQL.
- El razonamiento estadístico importa más que el dominio de herramientas; debes saber cuándo usar una prueba t frente a una prueba de Mann-Whitney U, y por qué las suposiciones de tu modelo son relevantes.
- Comunicar hallazgos a partes interesadas no técnicas es una competencia central que las rondas conductuales evalúan específicamente.
- Prepara 8-10 historias en formato STAR que cubran decisiones de diseño experimental, comunicación con partes interesadas y situaciones donde los datos contradijeron la intuición.
Preguntas conductuales
Las rondas conductuales en entrevistas de data science evalúan si puedes funcionar eficazmente en equipos multifuncionales, comunicar hallazgos complejos con claridad y manejar la ambigüedad inherente al trabajo analítico [2]. Con un salario mediano de 112.590 USD [1], las empresas invierten sustancialmente en encontrar candidatos que combinen profundidad técnica con visión de negocio.
1. Cuéntame sobre una ocasión en la que tuviste que comunicar un hallazgo analítico complejo a una audiencia no técnica.
Esta es la pregunta conductual más común en data science, y con buena razón — es la esencia del trabajo. Describe el hallazgo específico, la audiencia (ejecutivos, gerentes de producto, marketing), el enfoque de comunicación que elegiste (visualización, analogía, narrativa simplificada) y la decisión de negocio que resultó. Cuantifica el impacto: "Presentar el análisis de deserción al VP de Producto condujo a una función de retención que redujo la deserción a 30 días en un 12 %."
2. Describe una situación en la que tu análisis de datos contradijo lo que las partes interesadas esperaban o querían escuchar.
Los entrevistadores evalúan tu honestidad intelectual y tu coraje. Recorre el análisis que produjo el resultado inesperado, cómo validaste tus hallazgos (descartando problemas de calidad de datos, verificando la metodología), cómo presentaste la verdad incómoda y cómo reaccionó la parte interesada. Las mejores respuestas muestran que puedes ser diplomáticamente firme.
3. Cuéntame sobre un experimento que diseñaste. ¿Qué salió mal y qué aprendiste?
El rigor experimental es una competencia central. Describe la hipótesis, el diseño experimental (prueba A/B, multi-armed bandit, cuasi-experimento), el cálculo del tamaño de muestra, qué factores inesperados surgieron (sesgo de selección, efectos de novedad, problemas de instrumentación) y cómo te ajustaste. Los experimentos imperfectos que generan aprendizaje real impresionan más que la perfección declarada.
4. Describe una situación en la que tuviste que elegir entre entregar un modelo suficientemente bueno y dedicar más tiempo a mejorar la precisión.
Esto revela tu sentido del producto. Explica el contexto de negocio (presión de tiempo, impacto esperado de la mejora de precisión), el análisis de compensaciones que realizaste, la decisión que tomaste y el resultado. Las respuestas sólidas demuestran que entiendes los rendimientos decrecientes y puedes cuantificar el valor de negocio de mejoras marginales de precisión.
5. Cuéntame sobre un proyecto en el que tuviste que trabajar con datos desordenados e incompletos.
Todo conjunto de datos del mundo real es imperfecto. Describe los problemas específicos de calidad de datos (valores faltantes, formatos inconsistentes, sesgo de selección, registros duplicados), las estrategias de limpieza e imputación que aplicaste, las suposiciones que documentaste y cómo las limitaciones de los datos afectaron tu confianza en los resultados.
6. Describe una situación en la que tuviste que rechazar una solicitud de una parte interesada.
Quizás un gerente de producto quería que realizaras un análisis que produciría resultados engañosos, o un líder quería sacar conclusiones causales de datos correlacionales. Explica la solicitud, por qué era problemática, cómo comunicaste el problema y qué enfoque alternativo propusiste.
Preguntas técnicas
Las rondas técnicas evalúan tu razonamiento estadístico, tu conocimiento de aprendizaje automático y tu capacidad para diseñar soluciones analíticas. Las entrevistas para data scientists en grandes empresas incluyen componentes de programación, casos de estudio y analítica de producto [2].
1. Explícame paso a paso cómo diseñarías una prueba A/B para una nueva función en nuestra plataforma.
Comienza con la pregunta de negocio y la métrica de éxito. Define tus hipótesis nula y alternativa. Calcula el tamaño de muestra requerido basándote en el efecto mínimo detectable, la tasa de conversión base y la potencia estadística deseada (típicamente 80 %). Discute la unidad de aleatorización (usuario vs. sesión), la duración de la prueba (considerando ciclos semanales), métricas de protección y cómo manejar comparaciones múltiples. Aborda los efectos de novedad y cuándo terminar la prueba anticipadamente [3].
2. Tienes un modelo de clasificación con 95 % de precisión pero las partes interesadas están descontentas. ¿Qué está pasando?
Esto evalúa si entiendes el desequilibrio de clases. Si el 95 % de las muestras son negativas, un modelo que siempre predice negativo logra 95 % de precisión pero no detecta ningún caso positivo. Discute precision, recall, F1 score, AUC-ROC y cómo la métrica apropiada depende del costo de negocio de los falsos positivos frente a los falsos negativos. Un modelo de detección de fraude necesita alto recall; un sistema de recomendación puede priorizar precision.
3. Explica el equilibrio entre sesgo y varianza y cómo influye en tu selección de modelo.
Define sesgo (error sistemático por suposiciones demasiado simplificadas) y varianza (sensibilidad al ruido en los datos de entrenamiento). Explica cómo la complejidad del modelo afecta cada uno: los modelos simples tienen alto sesgo y baja varianza, los modelos complejos tienen bajo sesgo y alta varianza. Discute la regularización (L1/L2), la validación cruzada y los métodos de ensamble (bagging reduce varianza, boosting reduce sesgo) como herramientas prácticas para manejar este equilibrio [4].
4. ¿Cómo abordarías la construcción de un sistema de recomendación para un producto con datos de interacción de usuarios escasos?
Discute las limitaciones del filtrado colaborativo con datos escasos, los enfoques basados en contenido como alternativas, métodos híbridos y estrategias de arranque en frío. Menciona la factorización de matrices (SVD, ALS), enfoques de embeddings y cómo evaluarías las recomendaciones (más allá de la precisión — considera diversidad, novedad y cobertura). Aborda el problema del bucle de retroalimentación.
5. ¿Cuándo elegirías un random forest sobre un gradient-boosted tree, y viceversa?
Los random forests entrenan árboles independientemente (bagging), haciéndolos naturalmente paralelizables y resistentes al sobreajuste con datos ruidosos. Los gradient-boosted trees entrenan secuencialmente, cada árbol corrigiendo errores anteriores, logrando mayor precisión en datos estructurados/tabulares pero requiriendo un ajuste de hiperparámetros más cuidadoso. Discute tu experiencia con XGBoost, LightGBM o CatBoost y cuándo preferirías interpretabilidad (importancia de características de random forest) sobre rendimiento puro.
6. Explica la diferencia entre correlación y causalidad, y cómo establecerías causalidad a partir de datos observacionales.
Discute las variables de confusión, la paradoja de Simpson y por qué los ensayos controlados aleatorios son el estándar de oro. Para datos observacionales, cubre variables instrumentales, diferencia en diferencias, regresión de discontinuidad y emparejamiento por puntuación de propensión. Da un ejemplo concreto de tu experiencia donde establecer causalidad cambió una decisión de negocio.
7. Una parte interesada te pide predecir la deserción de clientes. Explícame tu enfoque de principio a fin.
Cubre el planteamiento del problema (definición de la ventana de deserción), ingeniería de características (conductuales, transaccionales, de engagement), manejo del desequilibrio de clases (SMOTE, pesos de clase, ajuste de umbral), selección de modelo (regresión logística como línea base, luego gradient boosting), evaluación (curva precision-recall, gráficos de lift) y consideraciones de despliegue (monitoreo del modelo, concept drift, cadencia de reentrenamiento).
Preguntas situacionales
Las preguntas situacionales evalúan tu juicio analítico en escenarios realistas de data science.
1. Tu prueba A/B muestra una mejora estadísticamente significativa pero prácticamente diminuta (0,1 % de aumento en conversión). El equipo de producto quiere implementarla. ¿Qué recomiendas?
Discute la diferencia entre significancia estadística y práctica. Calcula el impacto de negocio esperado de un aumento de 0,1 % contra el costo de ingeniería de mantener la función. Considera si la función introduce complejidad técnica, carga de mantenimiento o compromisos en la experiencia del usuario. La respuesta correcta depende del contexto — un aumento de 0,1 % en un checkout de e-commerce de alto tráfico podría valer millones anuales.
2. Descubres que el rendimiento de tu modelo en producción se ha degradado significativamente en el último mes. ¿Cómo lo diagnosticas y corriges?
Recorre la detección de concept drift (comparación de distribuciones entre datos de entrenamiento y de servicio), verificaciones de integridad de la pipeline de datos (¿las características upstream se siguen calculando correctamente?), cambios en la importancia de características y si la degradación es repentina (rotura de pipeline) o gradual (concept drift). Discute estrategias de reentrenamiento y mejores prácticas de monitoreo.
3. Un VP te pide construir un dashboard que muestre "las métricas más importantes." ¿Cómo abordas esta solicitud?
Resiste el impulso de construir inmediatamente. Entrevista al VP sobre qué decisiones toma, qué preguntas actualmente no puede responder y qué acciones tomaría basándose en diferentes valores de métricas. Propón una jerarquía de métricas (métrica North Star, métricas de soporte, métricas de protección) e itera sobre un prototipo antes de invertir en infraestructura de producción.
4. Tu equipo tiene tiempo limitado y debe elegir entre mejorar un modelo existente o construir uno nuevo para un caso de uso diferente. ¿Cómo decides?
Plantéalo como valor esperado: estima el impacto de negocio de cada opción, la probabilidad de éxito, la inversión de tiempo y el costo de oportunidad. Discute los rendimientos decrecientes en la mejora del modelo frente al potencial de abordar un caso de uso no atendido. Esta es fundamentalmente una pregunta de priorización, no técnica.
5. Estás construyendo un modelo que tomará decisiones que afectan la vida de las personas (aprobación de préstamos, selección de candidatos). ¿Qué consideraciones adicionales entran en juego?
Discute métricas de equidad (paridad demográfica, igualdad de oportunidades, calibración entre grupos), auditoría de sesgos, requisitos de explicabilidad (LIME, SHAP values), restricciones regulatorias, diseño con humano en el bucle y la importancia de documentar las limitaciones del modelo. Esta pregunta evalúa tu conciencia ética.
Preguntas para el entrevistador
Las preguntas que haces revelan si piensas como un data scientist que impulsa el impacto de negocio o como uno que solo construye modelos.
-
"¿Cómo influye el trabajo del equipo de data science en las decisiones de producto? ¿Puedes darme un ejemplo reciente?" — Esto revela si data science tiene influencia genuina o es una ocurrencia tardía.
-
"¿Cómo es tu proceso de revisión de experimentos? ¿Quién decide qué experimentos se ejecutan?" — Esto muestra tu compromiso con el rigor experimental y curiosidad sobre la gobernanza.
-
"¿Cuál es el estado actual de tu infraestructura de datos? ¿Cuáles son los mayores puntos de dolor?" — La calidad de los datos y la madurez de la infraestructura afectan directamente tu productividad.
-
"¿Cómo manejan el monitoreo y reentrenamiento de modelos en producción?" — Esto señala que piensas más allá del desarrollo de modelos hacia el ciclo completo de ML.
-
"¿Cuál es la proporción de análisis ad-hoc frente a trabajo de modelado a largo plazo?" — Esto te ayuda a entender si pasarás tu tiempo respondiendo preguntas rápidas en Slack o construyendo sistemas.
-
"¿Cómo es la progresión de carrera para data scientists aquí? ¿Existe un camino principal/staff?" — Los caminos de crecimiento importan, y preguntar por ellos muestra que estás evaluando el ajuste a largo plazo.
-
"¿Puedes darme un ejemplo de un proyecto de data science que no funcionó? ¿Qué aprendió el equipo?" — Las organizaciones que pueden discutir el fracaso abiertamente tienden a tener culturas de aprendizaje más saludables.
Formato de la entrevista y qué esperar
Las entrevistas para data scientists en la mayoría de las empresas siguen un formato estructurado de cuatro rondas [2]. La llamada del reclutador (20-30 minutos) cubre antecedentes, ajuste al rol y expectativas salariales. La evaluación técnica (45-60 minutos) típicamente involucra consultas SQL, preguntas de probabilidad o un pequeño ejercicio de programación en Python o R.
La ronda completa de entrevistas generalmente abarca un solo día con cuatro sesiones de 45 minutos: una ronda de programación (Python/SQL, a menudo con manipulación de datos con pandas), un caso de estudio analítico (convertir un problema de negocio en un enfoque de datos), una ronda de razonamiento analítico (diseño experimental, definición de métricas, interpretación estadística) y una ronda conductual [2].
Algunas empresas incluyen un caso de estudio para llevar a casa (4-8 horas de trabajo) antes de la entrevista presencial, pidiéndote analizar un conjunto de datos real y presentar hallazgos. Algunas empresas añaden una ronda de presentación donde expones un proyecto pasado o tu análisis del caso de estudio ante un panel de data scientists y partes interesadas. El proceso completo típicamente toma de tres a cinco semanas desde el primer contacto hasta la oferta.
Cómo prepararte
La preparación para entrevistas de data science debe equilibrar tres áreas: habilidades técnicas, razonamiento de casos de estudio y comunicación conductual.
Para la preparación técnica, repasa los fundamentos de estadística: pruebas de hipótesis, intervalos de confianza, inferencia bayesiana y distribuciones de probabilidad. Practica SQL en nivel intermedio a avanzado — funciones de ventana, CTEs y self-joins aparecen frecuentemente. Repasa la teoría de aprendizaje automático: equilibrio sesgo-varianza, regularización, métodos de ensamble y métricas de evaluación. Usa plataformas como StrataScratch o Interview Query para problemas de práctica realistas [3].
Para casos de estudio, practica estructurar problemas ambiguos: define el objetivo de negocio, identifica los datos disponibles, propón un enfoque analítico, anticipa objeciones y enmarca los resultados en términos de negocio. Cronometrate — tendrás 30-40 minutos para resolver un caso, y el ritmo importa tanto como la corrección técnica.
Para la preparación conductual, construye un portafolio de 8-10 historias STAR enfatizando comunicación, gestión de partes interesadas, diseño experimental, manejo de la ambigüedad y situaciones donde cambiaste de opinión basándote en datos. Las preguntas conductuales de data science investigan específicamente la humildad intelectual y la capacidad de traducir hallazgos técnicos para audiencias no técnicas.
Investiga el producto de la empresa, publicaciones recientes del blog de su equipo de datos y charlas públicas de miembros del equipo. Entender sus desafíos específicos de datos te permite personalizar tus respuestas y hacer preguntas informadas.
Errores comunes en la entrevista
-
Saltar directamente a un modelo sin entender el problema de negocio. La primera pregunta siempre debería ser "¿Qué decisión informará este análisis?" y no "¿Debería usar XGBoost o una red neuronal?"
-
Tratar el caso de estudio como un ejercicio de programación. Los casos de estudio evalúan el razonamiento de negocio y la comunicación. Una solución bellamente programada que responde la pregunta equivocada obtiene una calificación reprobatoria.
-
Ignorar suposiciones y limitaciones. Enunciar tus suposiciones explícitamente y reconocer las limitaciones demuestra madurez científica. Afirmar que tu modelo es perfecto señala inexperiencia.
-
Sobrecomplicar las explicaciones estadísticas. Si no puedes explicar los valores p a un gerente de producto, tus habilidades de comunicación necesitan trabajo. Practica simplificar sin sacrificar precisión.
-
Descuidar la preparación en SQL. Muchos candidatos sobreinvierten en teoría de ML y subinvierten en SQL. La mayoría de los roles de data science requieren habilidades sólidas de SQL para el trabajo diario, y la ronda de programación a menudo lo evalúa directamente.
-
No hacer preguntas aclaratorias durante el caso de estudio. Los problemas reales de data science son ambiguos por naturaleza. Los entrevistadores esperan que preguntes sobre definiciones, alcance, disponibilidad de datos y criterios de éxito antes de proponer una solución.
-
No cuantificar el impacto de negocio. "El modelo tenía 92 % de precisión" es menos convincente que "El modelo redujo las alertas de falsos positivos en un 40 %, ahorrando al equipo de operaciones 200 horas al mes."
Puntos clave
Las entrevistas para data scientists evalúan tu capacidad para convertir preguntas de negocio ambiguas en problemas analíticos estructurados, aplicar métodos estadísticos y de aprendizaje automático rigurosos, y comunicar hallazgos que impulsen decisiones. Con un crecimiento proyectado del 34 % y un salario mediano de 112.590 USD [1], el campo premia a los candidatos que combinan profundidad técnica con intuición de producto y habilidades de comunicación. Invierte tu tiempo de preparación en partes aproximadamente iguales entre razonamiento de casos de estudio, fundamentos técnicos y narrativa conductual — los candidatos que fracasan casi siempre son fuertes en un área pero descuidaron otra.
Crea tu currículum de Data Scientist optimizado para ATS con Resume Geni — es gratis para comenzar.
Preguntas frecuentes
¿Qué tan técnicas son las entrevistas de data science comparadas con las de ingeniería de software? Las entrevistas de data science enfatizan la estadística, el diseño experimental y el razonamiento de negocio más que la programación algorítmica pura. Seguirás escribiendo código (Python, SQL), pero el enfoque está en el pensamiento analítico y la comunicación en lugar de optimizar la complejidad temporal [2].
¿Necesito un doctorado para pasar las entrevistas de data science? No. Aunque algunos roles centrados en investigación prefieren doctorados, la mayoría de las posiciones de data science en la industria valoran la experiencia práctica y la capacidad de resolución de problemas. Un portafolio sólido de proyectos y una comunicación clara de tu enfoque analítico importan más que las credenciales.
¿Qué nivel de SQL debo preparar? Intermedio a avanzado. Espera funciones de ventana (ROW_NUMBER, LAG, LEAD), CTEs, self-joins, subconsultas y manipulación de fechas. Practica escribir consultas que respondan preguntas de negocio, no solo ejercicios técnicos.
¿Qué tan importante es el conocimiento del dominio para las entrevistas de data science? El conocimiento del dominio se valora cada vez más, especialmente en etapas avanzadas de la carrera. Para un rol en fintech, entender las métricas de riesgo importa; para salud, la familiaridad con estructuras de datos clínicos ayuda. Investiga el dominio de la empresa antes de tu entrevista.
¿Debo usar Python o R en las entrevistas de programación? Python es más ampliamente aceptado y esperado. A menos que la descripción del puesto mencione específicamente R o el equipo use R principalmente, Python es la opción más segura. La mayoría de los entrevistadores están familiarizados con pandas, NumPy y scikit-learn.
¿Cómo manejo un caso de estudio donde no conozco la respuesta correcta? Los casos de estudio rara vez tienen una única respuesta correcta. Lo que importa es tu enfoque estructurado: cómo planteas el problema, qué suposiciones declaras, qué datos necesitarías y cómo validarías tus conclusiones. Recorre tu razonamiento de forma transparente.
¿Cuál es la mejor manera de practicar para casos de estudio de data science? Usa plataformas como Interview Query o StrataScratch para práctica estructurada [3]. También practica con escenarios de negocio reales: elige un producto que uses, identifica una métrica y diseña un experimento para mejorarla. Cronometrate a 30 minutos.
Citas
[1] U.S. Bureau of Labor Statistics, "Data Scientists," Occupational Outlook Handbook, 2024. [2] Interview Query, "Data Science Case Study Interview Questions (2025 Guide)," 2025. [3] IGotAnOffer, "Data Science Case Interviews — What to Expect & How to Prepare," 2025. [4] Towards Data Science, "The Ultimate Guide to Cracking Business Case Interviews for Data Scientists," 2025.