Preguntas de entrevista para Data Analyst: La guía completa de preparación
La Oficina de Estadísticas Laborales de EE. UU. proyecta un crecimiento del empleo del 36 % para analistas de datos hasta 2033 — más de siete veces el promedio de todas las ocupaciones — con un salario anual mediano de 103.500 USD [1]. Organizaciones de todas las industrias están contratando analistas para transformar datos brutos en decisiones de negocio, pero la brecha de habilidades sigue siendo significativa: el Informe de Fuerza Laboral 2024 de LinkedIn identificó el análisis de datos como la habilidad más demandada en todas las categorías laborales por tercer año consecutivo [2]. Esto significa que los entrevistadores evalúan no solo la competencia técnica, sino tu capacidad para comunicar insights, pensar críticamente sobre la calidad de los datos y generar resultados de negocio medibles. Esta guía cubre el espectro completo de preguntas de entrevista para Data Analyst — desde SQL y razonamiento estadístico hasta comunicación con stakeholders e impacto de negocio — con marcos de respuesta que distinguen a los candidatos que simplemente consultan datos de aquellos que entregan inteligencia accionable.
Conclusiones clave
- Las entrevistas para Data Analyst evalúan competencia en SQL, razonamiento estadístico y comunicación de negocio por igual
- Espera desafíos de codificación en vivo (SQL o Python), análisis para llevar a casa y presentaciones de casos de estudio
- Las preguntas conductuales evalúan cómo manejas requisitos ambiguos, prioridades conflictivas de stakeholders y problemas de calidad de datos
- Prepara ejemplos de portafolio que muestren análisis de principio a fin: formulación de preguntas, preparación de datos, análisis, visualización y recomendación de negocio
- El conocimiento de las métricas clave de tu industria y el ecosistema de datos es tan importante como la habilidad técnica
Preguntas técnicas y de SQL
1. Escribe una consulta SQL para encontrar los 5 clientes principales por valor total de pedidos en los últimos 90 días, excluyendo pedidos cancelados.
**Qué buscan los entrevistadores:** Fluidez práctica en SQL, atención a casos límite y estructura de consulta limpia.
**Marco de respuesta:** Esto evalúa habilidades fundamentales de SQL — JOINs, agregación, filtrado y ordenamiento. Una respuesta sólida aborda: (1) filtrado de fechas correcto usando CURRENT\_DATE - INTERVAL '90 days' o equivalente, (2) exclusión explícita de pedidos cancelados con una cláusula WHERE, (3) JOIN apropiado entre tablas de clientes y pedidos, (4) GROUP BY con agregación SUM, y (5) ORDER BY DESC con LIMIT 5 [3]. Discute casos límite: ¿Qué pasa si un cliente tiene pedidos parcialmente cancelados? ¿Debería usarse la fecha de pedido o la fecha de pago para la ventana de 90 días? "Yo escribiría: SELECT c.customer\_id, c.name, SUM(o.total\_amount) as total\_value FROM customers c JOIN orders o ON c.customer\_id = o.customer\_id WHERE o.order\_date >= CURRENT\_DATE - INTERVAL '90 days' AND o.status != 'canceled' GROUP BY c.customer\_id, c.name ORDER BY total\_value DESC LIMIT 5; También le preguntaría al entrevistador si 'total_amount' es antes o después de descuentos y si las devoluciones deben descontarse."
2. Explica la diferencia entre las cláusulas WHERE y HAVING en SQL.
**Qué buscan los entrevistadores:** Comprensión del orden de ejecución de consultas, no solo la sintaxis.
**Marco de respuesta:** WHERE filtra filas antes de la agregación; HAVING filtra grupos después de la agregación [4]. Esta distinción importa porque WHERE no puede hacer referencia a funciones de agregación (SUM, COUNT, AVG) mientras que HAVING sí. El orden de ejecución de SQL es: FROM/JOIN, WHERE, GROUP BY, HAVING, SELECT, ORDER BY, LIMIT. Proporciona un ejemplo práctico: "Si quiero clientes que hicieron más de 5 pedidos en el último mes, uso WHERE para el filtro de fecha y HAVING para el conteo de pedidos: WHERE order\_date >= '2026-01-01' ... HAVING COUNT(\*) > 5. Poner la condición de conteo en WHERE causaría un error de sintaxis porque la agregación aún no se ha calculado."
3. ¿Cómo manejarías datos faltantes en un conjunto de datos que estás analizando?
**Qué buscan los entrevistadores:** Madurez analítica — entender que los datos faltantes son un problema para investigar, no solo un problema técnico para resolver. **Marco de respuesta:** Primero, diagnosticar el mecanismo de ausencia [5]: (1) Completamente aleatorio (MCAR) — la ausencia no está relacionada con ningún dato observado o no observado; seguro eliminar o imputar. (2) Aleatorio (MAR) — la ausencia depende de variables observadas; la imputación usando esas variables es apropiada. (3) No aleatorio (MNAR) — la ausencia depende del valor no observado en sí (p. ej., personas con altos ingresos omiten la pregunta de ingresos); esto requiere modelado cuidadoso o análisis de sensibilidad. Luego elegir una estrategia apropiada: eliminación (por lista o por pares), imputación (media, mediana, moda, basada en regresión o imputación múltiple), o marcado (crear una variable indicadora de ausencia e incluirla en el modelo). "En un análisis de comercio electrónico, descubrí que el 23 % de los registros de clientes carecían del campo 'referral_source'. La investigación reveló que el campo no se capturaba antes del rediseño del sitio web — era MAR, dependiente de la fecha de registro. Usé la distribución conocida de registros posteriores al rediseño para imputar fuentes de referencia para la cohorte anterior, documentando claramente esta suposición en mi informe."
4. Explica la diferencia entre correlación y causalidad con un ejemplo del mundo real.
**Qué buscan los entrevistadores:** Pensamiento estadístico y capacidad para comunicarlo a una audiencia de negocio. **Marco de respuesta:** La correlación mide la fuerza y dirección de una relación lineal entre dos variables; la causalidad significa que una variable influye directamente en la otra [6]. La trampa clásica: las ventas de helados y las muertes por ahogamiento están positivamente correlacionadas, pero el helado no causa ahogamientos — ambos son causados por el clima caluroso (una variable de confusión). En un contexto de negocio: "Un equipo de marketing me mostró una correlación entre el gasto en publicidad en redes sociales y el crecimiento de ingresos durante 12 meses (r = 0,87). Antes de recomendar un aumento en el gasto, investigué factores de confusión. Resultó que ambas variables estaban impulsadas por la estacionalidad — el gasto navideño del Q4 aumentaba simultáneamente el presupuesto publicitario y los ingresos. Cuando controlé la estacionalidad, la correlación cayó a 0,31. Rediseñamos el análisis como una prueba A/B para establecer el impacto causal real, que mostró un aumento del 4,2 % en ingresos por anuncios sociales — real, pero mucho menor de lo que sugería la correlación ingenua."
5. ¿Cómo abordas el diseño de un dashboard para stakeholders?
**Qué buscan los entrevistadores:** Pensamiento centrado en el usuario, no solo habilidad técnica de visualización. **Marco de respuesta:** Comienza con la audiencia y sus decisiones, no con los datos [7]. Pasos: (1) Identifica las preguntas de negocio clave que el dashboard debe responder — "¿Cómo vamos respecto a los objetivos trimestrales?" es diferente de "¿Dónde deberíamos invertir el presupuesto de marketing?" (2) Determina la audiencia — los ejecutivos necesitan KPIs de alto nivel con desglose; los analistas necesitan datos granulares con filtros. (3) Diseña para la cadencia de decisiones — dashboards operativos diarios versus revisiones estratégicas semanales. (4) Aplica mejores prácticas de visualización: elige tipos de gráficos que coincidan con la relación de datos (línea para tendencias, barras para comparaciones, dispersión para correlaciones), minimiza la carga cognitiva, usa codificación de color consistente e incluye contexto (objetivos, benchmarks, período anterior) [8]. "Construí un dashboard de rendimiento de ventas para una VP que lo revisaba cada lunes por la mañana. Puse los tres KPIs que más le importaban — cobertura del pipeline, tasa de cierre y tamaño promedio de la operación — como números grandes arriba con indicadores de tendencia semana a semana. Debajo, proporcioné desglose por región, representante y línea de producto. Las analíticas de uso mostraron que la VP pasaba 3 minutos semanales en el dashboard — lo que significaba que el resumen de alto nivel estaba cumpliendo su función."
Preguntas estadísticas y analíticas
6. Un product manager te dice que la última prueba A/B muestra una mejora del 2 % en la tasa de conversión con un valor p de 0,04. ¿Deberías implementar el cambio?
**Qué buscan los entrevistadores:** Comprensión matizada de la significancia estadística versus la significancia práctica. **Marco de respuesta:** Un valor p de 0,04 significa que hay una probabilidad del 4 % de observar este resultado (o uno más extremo) si la hipótesis nula es verdadera — cumple el umbral convencional de 0,05 para significancia estadística [9]. Pero la significancia estadística por sí sola es insuficiente. Evalúa: (1) Significancia práctica — ¿es una mejora relativa del 2 % significativa para el negocio? Si la tasa de conversión base es del 10 %, pasar al 10,2 % puede no justificar el esfuerzo de ingeniería. Si la base es del 1 %, pasar al 1,02 % es insignificante. (2) Intervalo de confianza — ¿cuál es el rango de tamaños de efecto plausibles? Un IC de [0,1 %, 3,9 %] significa que el efecto real podría ser trivialmente pequeño. (3) Tamaño de muestra y duración del test — ¿se ejecutó el test suficiente tiempo para capturar la ciclicidad semanal? ¿Hubo comparaciones múltiples que inflen el riesgo de falsos positivos? (4) Efectos de segmento — ¿la mejora se mantiene en todos los segmentos de usuarios, o está impulsada por un grupo atípico? "Le haría tres preguntas al product manager antes de recomendar implementar: ¿Cuál es el cambio absoluto en la tasa de conversión, no solo el relativo? ¿Cuánto tiempo duró el test? ¿Y verificamos efectos de interacción entre usuarios móviles y de escritorio?"
7. Explica qué son un error Tipo I y un error Tipo II, y cuándo priorizarías minimizar cada uno.
**Qué buscan los entrevistadores:** Aplicación práctica de conceptos estadísticos a decisiones de negocio. **Marco de respuesta:** El error Tipo I (falso positivo) es concluir que existe un efecto cuando no es así. El error Tipo II (falso negativo) es concluir que no existe un efecto cuando sí lo hay [10]. El compromiso: reducir el error Tipo I (alfa más bajo) aumenta el error Tipo II, y viceversa. Prioriza minimizar el Tipo I cuando el costo de un falso positivo es alto — lanzar una función que en realidad no funciona, aprobar un medicamento ineficaz o marcar una transacción legítima como fraude (fricción con el cliente). Prioriza minimizar el Tipo II cuando el costo de perder un efecto real es alto — no detectar una enfermedad en un screening, perder una amenaza de seguridad genuina o no lanzar una función que habría mejorado significativamente la retención. "En la detección de fraude, optimizo para un Tipo II bajo — prefiero marcar 100 transacciones legítimas para revisión (falsos positivos) que perder un solo caso real de fraude. En experimentos de precios, optimizo para un Tipo I bajo — no quiero aumentar precios permanentemente basándome en un falso positivo que diga que los clientes no abandonarían."
8. ¿Cómo medirías el éxito de una nueva función del producto?
**Qué buscan los entrevistadores:** Pensamiento en métricas y capacidad para definir el éxito antes de medirlo. **Marco de respuesta:** Define la jerarquía de éxito antes de escribir consultas [11]: (1) Métrica primaria — el número único que mide directamente el resultado previsto de la función (p. ej., para un motor de recomendaciones: tasa de clics en artículos recomendados). (2) Métricas secundarias — medidas relacionadas que proporcionan contexto (p. ej., duración de sesión, páginas por visita). (3) Métricas de protección — métricas que NO deberían degradarse (p. ej., tasa de conversión general, tiempo de carga de página, puntuaciones de satisfacción del cliente). (4) Alineación con la estrella norte — ¿la mejora en la métrica primaria realmente impulsa la métrica de valor central de la empresa? Luego determinar la metodología de medición: comparación pre-post (la más débil), análisis de cohortes (moderada) o prueba A/B (la más fuerte). Establecer el tamaño mínimo detectable del efecto y el tamaño de muestra requerido antes del lanzamiento, no después. "Para una función de simplificación del checkout, definí: métrica primaria = tasa de finalización del checkout, métricas secundarias = tiempo hasta el checkout y valor promedio del pedido, métricas de protección = tasa de devoluciones y tickets de soporte al cliente. Ejecutamos la prueba A/B durante 3 semanas para capturar ciclos semanales completos y logramos un aumento del 7,3 % en la tasa de finalización sin degradación en las métricas de protección."
Preguntas conductuales y de comunicación
9. Cuéntame sobre una vez que tu análisis contradijo lo que los stakeholders esperaban o querían escuchar.
**Qué buscan los entrevistadores:** Valentía para entregar hallazgos incómodos y habilidad para enmarcarlos constructivamente. **Marco de respuesta:** Elige un ejemplo donde tu análisis desafió una narrativa popular o el proyecto favorito de un ejecutivo. Describe: (1) la expectativa del stakeholder y por qué existía, (2) qué mostraron tus datos y cómo los validaste, (3) cómo presentaste el hallazgo — encuadre, contexto y recomendaciones de acción [12]. "El equipo de marketing estaba convencido de que un programa de fidelización lanzado seis meses antes estaba impulsando las compras repetidas. Mi análisis de cohortes mostró que los miembros ya eran compradores frecuentes antes de unirse — el programa atraía a clientes leales existentes, no creaba nuevos. Presenté esto junto con un hallazgo positivo: los miembros del programa tenían un valor promedio de pedido 12 % mayor. Recomendé reposicionar el programa como un mecanismo de upselling en lugar de una herramienta de retención, lo cual el CMO aceptó después de revisar los datos."
10. Describe una vez que tuviste que trabajar con datos desordenados o poco confiables. ¿Qué hiciste?
**Qué buscan los entrevistadores:** Conciencia de calidad de datos y resolución práctica de problemas. **Marco de respuesta:** Todo analista trabaja con datos imperfectos — la pregunta es cómo los manejas. Describe: (1) cómo identificaste los problemas de calidad (validaciones, análisis de distribución, conocimiento del dominio), (2) qué problemas específicos existían (duplicados, formatos inconsistentes, valores faltantes, registros obsoletos, fuentes contradictorias), (3) cómo limpiaste y transformaste los datos documentando tus decisiones, y (4) cómo comunicaste las limitaciones de calidad de datos en tu análisis final [13]. "Me pidieron analizar la rotación de clientes usando un export del CRM. La exploración inicial reveló: 15 % de registros de clientes duplicados con diferentes IDs, tres formatos de fecha diferentes entre campos, y una columna 'last_activity_date' que no se había actualizado durante 6 meses debido a una integración rota. Construí una lógica de deduplicación usando coincidencia de email + teléfono, estandaricé las fechas y reconstruí el historial de actividad desde la tabla de registro de eventos. Documenté cada paso de limpieza en un apéndice de calidad de datos y reporté la integración rota al equipo de ingeniería."
11. ¿Cómo priorizas cuando múltiples stakeholders solicitan análisis simultáneamente?
**Qué buscan los entrevistadores:** Madurez profesional y pensamiento estratégico sobre dónde el análisis crea más valor. **Marco de respuesta:** Prioriza por impacto de negocio, urgencia de la decisión y disponibilidad de datos [14]. Un marco: (1) ¿Hay una decisión sensible al tiempo que se tomará de todos modos — tu análisis solo puede mejorarla si se entrega antes de la fecha límite? Eso tiene prioridad. (2) ¿Cuál es el valor esperado de la decisión que tu análisis informa — una decisión de precios de 10 millones de dólares supera una mejora de proceso de 50.000 dólares. (3) ¿Puedes proporcionar una respuesta direccional rápida a un stakeholder mientras das un análisis profundo a otro? "Mantengo una cola de priorización que comparto con mi gerente semanalmente. Cuando dos VPs solicitaron análisis conflictivos en la misma semana, proporcioné al VP A un análisis exploratorio rápido (2 horas) que respondió su pregunta inmediata de forma direccional, mientras hacía un análisis profundo completo para el VP B cuyo análisis informaba una presentación ante la junta. Comuniqué los plazos a ambos stakeholders por adelantado, y ninguno se sorprendió."
Preguntas basadas en escenarios
12. Notas que los usuarios activos diarios cayeron un 15 % ayer. Guíame a través de tu investigación.
**Qué buscan los entrevistadores:** Enfoque de depuración estructurado y pensamiento basado en hipótesis. **Marco de respuesta:** Sigue un árbol de diagnóstico [15]: (1) Verifica los datos — ¿es precisa la métrica? Revisa problemas de logging, retrasos en el pipeline o cambios en la definición. (2) Determina el alcance — ¿la caída es en todas las plataformas (web, móvil, app) o está aislada? ¿Todas las geografías o regiones específicas? ¿Todos los segmentos de usuarios o cohortes específicas? (3) Revisa causas conocidas — ¿hubo una caída del sitio, un deployment o una campaña de marketing que terminó? (4) Examina métricas correlacionadas — ¿las sesiones bajaron (menos personas llegando) o la profundidad de sesión bajó (las mismas personas haciendo menos)? (5) Formula hipótesis y pruébalas — si es solo móvil, revisa la App Store por problemas de actualización; si es geográficamente específico, revisa caídas de ISP; si es solo usuarios nuevos, revisa el rendimiento del canal de adquisición. "Mi primera llamada sería a ingeniería para verificar incidentes. Si está limpio, segmentaría la caída por plataforma, geografía y fuente de adquisición en 30 minutos. En un rol anterior, una investigación similar reveló que un cambio de configuración del CDN había roto la carga de imágenes en tres países europeos, lo que representaba toda la caída."
13. Un líder de ventas te pide construir un modelo para predecir qué leads se convertirán. ¿Cómo lo abordas?
**Qué buscan los entrevistadores:** Planificación de proyectos analíticos de principio a fin, no solo técnica de modelado. **Marco de respuesta:** Resiste el impulso de saltar a la selección del modelo. Pasos: (1) Define la variable objetivo con precisión — ¿qué cuenta como "conversión" y en qué ventana de tiempo? (2) Identifica las características disponibles — fuente del lead, tamaño de la empresa, señales de engagement (aperturas de email, visitas a páginas, descargas de contenido), datos demográficos/firmográficos. (3) Evalúa la calidad y volumen de datos — ¿tienes suficientes conversiones históricas para entrenar un modelo? (4) Empieza simple — la regresión logística a menudo supera a modelos complejos cuando las características están bien diseñadas y proporciona coeficientes interpretables en los que los equipos de ventas confían [16]. (5) Define métricas de evaluación alineadas con el caso de uso de negocio — precisión (no desperdiciar tiempo de ventas en leads malos) o recall (no perder ningún lead bueno). (6) Planifica el deployment y monitoreo — ¿cómo se presentarán los scores al equipo de ventas, y cómo detectarás la degradación del modelo? "La mayor trampa que he visto es construir un modelo preciso pero sin uso. Trabajaría con el equipo de ventas desde el día uno para entender su flujo de trabajo, integraría el score del lead en su CRM y haría una prueba A/B para verificar si los leads con score realmente se convierten a una tasa más alta cuando se priorizan."
14. Marketing afirma que su campaña de email generó 500.000 dólares en ingresos. ¿Cómo validarías esta afirmación?
**Qué buscan los entrevistadores:** Sofisticación en atribución y escepticismo saludable. **Marco de respuesta:** Cuestiona la metodología de atribución [17]: (1) ¿Cómo se definió "generó" — los destinatarios compraron dentro de 7 días, hicieron clic en el email antes de comprar, o simplemente lo abrieron? (2) ¿Cuál es el contrafactual — habrían comprado estos clientes de todas formas sin el email? Verifica: ¿eran los destinatarios clientes existentes con patrones de compra regulares? Compara contra un grupo de control si existía uno. (3) Examina la incrementalidad — resta la tasa de compra base de clientes similares que no recibieron el email. (4) Revisa el sesgo de selección — ¿se seleccionó a los destinatarios porque ya eran propensos a comprar (visitantes frecuentes, artículos en el carrito)? "Primero pediría los datos del grupo de control. Si no existiera un grupo de control, construiría un grupo de control pareado de no destinatarios con historial de compras, recencia y niveles de engagement similares. En un análisis anterior, este enfoque redujo el impacto reclamado de una campaña de 500.000 dólares a 127.000 dólares en ingresos verdaderamente incrementales — todavía positivo, pero una historia muy diferente para el cálculo del ROI."
Preguntas para el entrevistador
- **"¿Cómo es la infraestructura de datos — dónde viven los datos y cómo acceden los analistas a ellos?"** — Muestra conciencia práctica de las herramientas y sistemas con los que trabajarás diariamente.
- **"¿Cómo se establecen las prioridades analíticas — hay un proceso formal de solicitud o es más ad hoc?"** — Señala conciencia de los desafíos de gestión del flujo de trabajo.
- **"¿Puedes describir un análisis reciente que cambió una decisión de negocio?"** — Prueba si la organización realmente usa datos para tomar decisiones o solo los recopila.
- **"¿Cuál es el enfoque del equipo respecto a la calidad de datos y la gobernanza?"** — Demuestra conciencia de que la calidad del análisis depende de la calidad de los datos.
Lista de verificación de preparación
- **Practica SQL bajo presión de tiempo.** Usa plataformas como LeetCode, HackerRank o StrataScratch para resolver problemas de SQL en 15-20 minutos — esto refleja el ambiente de la entrevista [18].
- **Prepara una presentación de portafolio.** Selecciona un análisis del que estés orgulloso y prepara un recorrido de 10 minutos: la pregunta de negocio, tu enfoque, el análisis, los hallazgos y el impacto de negocio. Practica explicándolo a alguien sin formación técnica.
- **Repasa estadística básica.** Media, mediana, desviación estándar, intervalos de confianza, valores p, diseño de pruebas A/B e interpretación de regresión deben ser algo natural.
- **Conoce tus herramientas a fondo.** Ya sea que uses Python (pandas, matplotlib), R (tidyverse, ggplot2), Tableau o Power BI, prepárate para explicar por qué elegiste herramientas específicas para tareas específicas y demuestra fluidez en al menos una.
- **Investiga los datos de la empresa.** Revisa las publicaciones del blog del equipo de datos, conferencias o descripciones de puestos para entender su stack tecnológico, escala de datos y prioridades analíticas.
Referencias
[1] U.S. Bureau of Labor Statistics, "Occupational Outlook Handbook: Data Scientists and Mathematical Science Occupations," BLS, 2024. [2] LinkedIn, "2024 Workforce Report: Most In-Demand Skills," LinkedIn Economic Graph, 2024. [3] Molinaro, D., "SQL for Data Analysis," O'Reilly Media, 2023. [4] Beaulieu, A., "Learning SQL," 3rd Edition, O'Reilly Media, 2020. [5] Little, R. & Rubin, D., "Statistical Analysis with Missing Data," 3rd Edition, Wiley, 2019. [6] Pearl, J. & Mackenzie, D., "The Book of Why: The New Science of Cause and Effect," Basic Books, 2018. [7] Few, S., "Information Dashboard Design," Analytics Press, 2013. [8] Knaflic, C.N., "Storytelling with Data," Wiley, 2015. [9] Wasserstein, R. & Lazar, N., "The ASA Statement on p-Values," The American Statistician, 2016. [10] Agresti, A. & Franklin, C., "Statistics: The Art and Science of Learning from Data," 4th Edition, Pearson, 2017. [11] Croll, A. & Yoskovitz, B., "Lean Analytics," O'Reilly Media, 2013. [12] Davenport, T. & Kim, J., "Keeping Up with the Quants," Harvard Business Review Press, 2013. [13] Dasu, T. & Johnson, T., "Exploratory Data Mining and Data Cleaning," Wiley, 2003. [14] Patil, D.J. & Mason, H., "Data Driven," O'Reilly Media, 2015. [15] Hubbard, D., "How to Measure Anything," 3rd Edition, Wiley, 2014. [16] Provost, F. & Fawcett, T., "Data Science for Business," O'Reilly Media, 2013. [17] Kohavi, R. et al., "Trustworthy Online Controlled Experiments," Cambridge University Press, 2020. [18] Tao, D., "Ace the Data Science Interview," 2023.