15 errores con los datos que debe evitar
Escollos y tropiezos en los análisis con business intelligence

Independientemente del tamaño de su empresa y del sector en el que opere, los análisis de datos son un elemento clave para obtener información valiosa y un éxito sostenible. Pero, por desgracia, los resultados de estos análisis suelen ser aleccionadores, ya que hay muchos factores que pueden contribuir a que las conclusiones de los datos sean incorrectas. Le explicamos qué escollos del análisis de datos debe tener en cuenta y cómo puede evitarlos para aprovechar todo el potencial de sus datos. Explore con nosotros conceptos erróneos sobre los datos, como el «efecto ancla», la «paradoja de Simpson» o la infame «falacia del jugador», para conocer en profundidad los errores más comunes en inteligencia empresarial.
Errores en los datos y cómo evitarlos
1. Cherry picking:
El «cherry picking» es una trampa de datos habitual en la que sólo se eligen selectivamente determinados puntos de datos o información para apoyar una tesis, mientras que se ignoran deliberadamente otros datos relevantes. Este enfoque engañoso puede tergiversar por completo los resultados de un análisis de datos, ya que distorsiona la imagen global de los mismos. El «cherry picking», por ejemplo, puede hacer que una situación se presente mucho mejor o peor de lo que es en realidad. Imagine, por ejemplo, que su departamento de marketing quiere analizar la eficacia de un producto. Si para ello sólo se utilizan las opiniones positivas de los clientes o las historias de éxito, se puede suponer que el análisis muestra una imagen distorsionada de la realidad. En este caso concreto, el análisis mostrará una imagen muy positiva de la eficiencia del producto. Sin embargo, si en realidad hay muchas reseñas negativas o voces críticas que no se tienen en cuenta en el análisis, podría ser que su producto en realidad no sea especialmente eficaz. Así que, para optimizar o seguir desarrollando su producto, debería incluir sin duda estas voces negativas en el análisis.
Solución: Para evitar el cherry picking, es crucial llevar a cabo un análisis de datos sistemático y transparente. Por lo tanto, deben recopilarse todos los datos disponibles, aplicarse métodos estadísticos objetivos y publicarse todos los datos. Tenga especial cuidado de incluir datos que no se ajusten a la hipótesis que intenta demostrar. Las revisiones inter pares y las revisiones externas realizadas por expertos independientes también pueden ayudar a reconocer y corregir estos sesgos. Al presentar los datos de forma honesta y completa, se garantiza que los análisis se basen en fundamentos sólidos y no se vean influidos por una selección selectiva.
2. Sesgo de supervivencia:
El sesgo de supervivencia es un sesgo que se produce cuando en un análisis sólo se tienen en cuenta los casos con éxito o supervivientes, mientras que se omiten los casos sin éxito o no supervivientes. Esto conduce a una descripción poco realista de las perspectivas de éxito, ya que faltan datos importantes sobre el fracaso. Este error en los datos puede llevar a conclusiones falsas, ya que los datos no tenidos en cuenta pueden constituir una parte importante del panorama general. El sesgo de supervivencia suele darse, por ejemplo, en estudios sobre empresas de éxito o personalidades famosas. Por ejemplo, a menudo se analizan las historias de empresas o personas de éxito, mientras que no se tienen en cuenta las de empresas fracasadas o personas desconocidas. Esto conduce a una evaluación distorsionada de los factores de éxito. Un caso especialmente citado de sesgo de supervivencia es el estudio de los aviones en la Segunda Guerra Mundial. Para decidir dónde debía reforzarse el blindaje, primero se examinaron los aviones devueltos con agujeros de bala. Basándose en esto, las partes con más agujeros de bala deben ser reforzadas. Sin embargo, lo que a priori parece lógico tenía un fallo crucial: Todas las máquinas que se estrellaron debido a un agujero de bala no se incluyeron en los datos analizados. Entonces se descubrió que las partes del avión con menos agujeros de bala en el estudio debían reforzarse sin duda: la mayoría de los aviones se estrellaban al recibir impactos en esas zonas.
Solución: utilice una base de datos exhaustiva que incluya todos los casos con éxito y todos los casos fallidos para evitar este fenómeno. Dado que, como en el ejemplo anterior, no siempre está garantizado que se disponga de todos los datos, antes de analizarlos hay que examinarlos con ojo crítico para evitar sacar conclusiones falsas. Por lo tanto, siempre hay que ser consciente de que pueden faltar datos y buscar estos casos para minimizar o prevenir el sesgo de supervivencia.
3. Efecto cobra:
El efecto cobra se refiere a una situación en la que una solución propuesta a un problema tiene efectos secundarios indeseables que agravan el problema o crean nuevos problemas. Se trata, por tanto, de un falso incentivo. El término procede de una anécdota de la época colonial en la India: en aquella época, muchas personas morían en la India por mordeduras de cobra. Para liberar a la población de las cobras, los gobernantes coloniales británicos ofrecían una recompensa por cada cobra capturada. Desgraciadamente, no se habían dado cuenta de que esto podría suponer un incentivo equivocado. En respuesta, los lugareños empezaron a criar cobras para intercambiarlas por la recompensa. Después de que el gobierno pusiera fin a la iniciativa, estas cobras de piscifactoría se soltaban a menudo en la naturaleza, lo que provocaba un aumento drástico de la población de cobras en lugar de una disminución.
También podemos observar a menudo el efecto cobra en la economía: Por ejemplo, si un gobierno intenta bajar la inflación reduciendo drásticamente la oferta monetaria, esto puede provocar un deterioro de las condiciones económicas. Esto significa que la población tiene menos dinero para invertir y gastar. Esto, a su vez, puede provocar un descenso de la actividad económica.
Solución: Para evitar el efecto cobra, es crucial considerar cuidadosamente el impacto a largo plazo de cualquier solución propuesta para garantizar que se evitan efectos secundarios no deseados. El intercambio con expertos y partes interesadas puede ayudar a considerar diferentes perspectivas y reconocer consecuencias imprevistas antes de aplicar una solución. La supervisión y el ajuste continuos de las medidas también son importantes para garantizar que se evitan el efecto cobra y otras consecuencias indeseables similares.
4. Falsa causalidad:
La falsa causalidad es un error que se produce cuando se supone que existe una relación de causa-efecto entre dos sucesos, aunque sólo tengan una correlación aleatoria u otras variables ocultas expliquen la relación. Un ejemplo clásico es la correlación entre el aumento de las ventas de helados y el aumento de los accidentes en las piscinas en verano. Un rápido vistazo a un análisis de este tipo podría sugerir que los accidentes en las piscinas se deben al mayor consumo de helados. Sin embargo, ambos fenómenos se deben en realidad a la estación cálida.
Solución: tenga cuidado de distinguir bien entre correlación y causalidad para evitar este error. Una correlación mide la relación estadística entre dos variables. En cambio, las relaciones causales proporcionan información sobre la causa y el efecto. Por lo tanto, una correlación puede indicar una relación causal, pero no tiene por qué ser necesariamente así. Los métodos estadísticos, como los experimentos y los grupos de control, pueden ayudar a identificar las relaciones causa-efecto reales. Por lo tanto, analice todos los datos disponibles y compruebe explicaciones alternativas para las correlaciones observadas. Además, un conocimiento profundo del tema específico puede ayudar a comprender mejor las relaciones pertinentes y evitar suposiciones infundadas. Un análisis crítico consciente y una actitud abierta hacia diversas interpretaciones posibles son cruciales para evitar conclusiones falsas sobre una causalidad incorrecta.
5. Pesca de datos:
La pesca de datos, también conocida como p-hacking o acaparamiento de datos, es la práctica de buscar en grandes cantidades de datos resultados o patrones estadísticamente significativos sin probar una hipótesis específica. Esto puede llevar a resultados engañosos, ya que se esperan resultados estadísticamente significativos si se realizan suficientes pruebas, aunque no haya un efecto real. Por ejemplo, los investigadores podrían contrastar cientos de variables con un valor objetivo específico y luego presentar sólo los resultados que parezcan estadísticamente significativos. Por ejemplo, si en un ensayo farmacológico se está probando el efecto de distintas dosis del fármaco sobre diversos síntomas, los investigadores deben tener en cuenta todos los resultados. Sin embargo, si la pesca de datos se utiliza para seleccionar únicamente la dosis que muestra un efecto estadísticamente significativo sobre un síntoma sin tener en cuenta las demás pruebas, esto puede dar lugar a una presentación distorsionada de los resultados.
Solución: para evitar la pesca de datos, es importante formular una hipótesis clara antes de recopilar los datos y planificar los métodos de análisis con antelación. Si se realizan varias pruebas, debe utilizarse una corrección como la prueba de Bonferroni para reducir el riesgo de falsos positivos. La transparencia y la apertura también son cruciales. Debe documentar todas las pruebas realizadas y sus resultados, aunque no sean significativos. Esto permite una evaluación exhaustiva y evita la comunicación selectiva de resultados que podrían estar distorsionados por la pesca de datos.
6. Sesgo de confirmación:
El sesgo de confirmación es la tendencia a favorecer la información o los datos que confirman las creencias o hipótesis existentes, ignorando o rechazando la información contradictoria. Esto se debe a que las personas buscan inconscientemente la confirmación de lo que ya creen en lugar de evaluar objetivamente toda la información disponible. Esto puede llevar a una interpretación unilateral de los datos. Un ejemplo práctico sería el de un inversor que tiende a prestar atención únicamente a las noticias y análisis que apoyan su valoración positiva de una acción, mientras que ignora los informes negativos o las advertencias sobre posibles riesgos.
Solución: Para evitar el sesgo de confirmación, es importante ser consciente de esta tendencia y combatirla activamente. Un primer paso es promover una forma de pensar abierta y crítica. En la ciencia, métodos como los estudios doble ciego y las revisiones por pares ayudan a garantizar evaluaciones objetivas. En su organización, puede obtener opiniones y comentarios de personas con puntos de vista y experiencias diferentes para cuestionar y ampliar su propio punto de vista. También es útil comprobar periódicamente por uno mismo si se mantiene objetivo al evaluar la información o busca inconscientemente la confirmación. La influencia del sesgo de confirmación puede minimizarse mediante la autorreflexión consciente y el uso de diferentes perspectivas.
7. Regresión a la media:
La regresión a la media describe el fenómeno por el cual los valores extremadamente altos o bajos de una medición tienden a volver a valores menos extremos cuando se repite la medición. Esto ocurre independientemente de cualquier intervención o cambio y se basa en fluctuaciones aleatorias de los datos. Un ejemplo de ello es el rendimiento académico. Por lo tanto, es probable que los estudiantes que obtengan resultados excepcionales en una prueba no consigan resultados tan extraordinarios en una repetición posterior de la prueba. Esto se debe a fluctuaciones normales, por ejemplo debidas a la forma diaria de los alumnos.
Solución: Para evitar la regresión a la media, es importante comprender que los valores extremos pueden producirse a menudo por casualidad y no indican necesariamente una relación causa-efecto. Por lo tanto, al evaluar el rendimiento o los resultados, no hay que reaccionar de forma exagerada ante los valores extremos, ya que tenderán a volver a valores menos extremos cuando se repita la medición. Es aconsejable utilizar métodos estadísticos para reconocer la naturaleza aleatoria de los valores extremos y tener siempre en cuenta el contexto al interpretar los datos. Las revisiones periódicas y los análisis críticos pueden ayudar a extraer conclusiones fiables sin dejarse influir por fluctuaciones aleatorias.
8. Heurística del ancla:
La heurística de anclaje, también conocida como sesgo de anclaje o efecto de anclaje, se refiere a la tendencia a estar muy influenciado por un valor o dato inicial a la hora de tomar decisiones. Aunque esta ancla sea irrelevante o se base en una suposición falsa, la gente tiende a orientarse fuertemente hacia ella. Por ejemplo, el primer precio ofertado en una negociación de precios es un ancla que se ha demostrado que influye mucho en el resultado de la negociación. Por ejemplo, si un vendedor fija un precio muy alto, los compradores tenderán a orientar sus propias ofertas más cerca de ese precio alto.
Solución: Darse cuenta de cómo las anclas pueden influir en nuestras decisiones. Para ello, distánciese activamente de un valor declarado inicialmente y utilice criterios de evaluación objetivos. Puede ser útil considerar valores de anclaje alternativos basados en datos objetivos y utilizarlos como base para la toma de decisiones. En las negociaciones, por ejemplo, puede ser útil centrarse en hechos relevantes y precios comparativos para estar menos influenciado por un punto de partida determinado arbitrariamente. Una toma de decisiones consciente y basada en datos y análisis sólidos puede ayudar a minimizar el impacto de la heurística del ancla. A la inversa, esto también se aplica, por ejemplo, si desea recopilar datos. Si está diseñando una encuesta, por ejemplo, debe tener en cuenta que los encuestados podrían estar influidos por el efecto ancla, lo que a su vez puede afectar a la validez de la encuesta. En estos casos, elija los valores de anclaje con mucho cuidado o prescinda de ellos si es posible.
9. La paradoja de Simpson:
La paradoja de Simpson describe una ilusión estadística en la que una tendencia en los datos globales se produce en la dirección opuesta a la tendencia en los grupos individuales. Esto significa que una observación que aparece en un análisis global puede invertirse cuando los datos se dividen en diferentes subgrupos. Un ejemplo práctico podría ser un estudio sobre el éxito terapéutico de dos hospitales diferentes. En general, un hospital podría tener una mayor tasa de supervivencia. Sin embargo, cuando los datos se desglosan por gravedad de la enfermedad, puede resultar que el otro hospital tenga una tasa de supervivencia mejor en todos los niveles de gravedad.
Solución: Para evitar la paradoja de Simpson, es importante prestar mucha atención a las posibles interacciones entre variables en los análisis estadísticos. Si existen diferencias significativas en los datos globales, es aconsejable comprobar más detenidamente si estas diferencias son coherentes en los subgrupos. Un análisis más profundo que tenga en cuenta distintas variables y examine las posibles interacciones entre ellas puede ayudar a reconocer y comprender la paradoja. En el caso de datos muy complejos, suele ser aconsejable trabajar con estadísticos o analistas de datos experimentados para garantizar una interpretación precisa y fiable de los resultados.
10. falacia ecológica:
La falacia ecológica se refiere a la conclusión errónea sobre características individuales a partir de datos agregados, basados en grupos. Esta distorsión se produce cuando las correlaciones estadísticas a nivel de grupo se trasladan a los individuos sin tener en cuenta las diferencias individuales. Por ejemplo, si observamos una ciudad rica en la que la renta media de sus habitantes es muy alta, podríamos concluir que todos sus habitantes son ricos. En la realidad, sin embargo, es más probable que incluso en una ciudad así existan diferencias considerables de ingresos entre los distintos habitantes, de modo que algunos podrían ser muy ricos, mientras que otros podrían ser muy pobres.
Solución: Para evitar la falacia ecológica, es importante distinguir entre características agregadas e individuales a la hora de interpretar los datos. Por lo tanto, los análisis de los datos no sólo deben realizarse a nivel de grupo, sino también a nivel individual para obtener una idea más precisa de las diferencias reales. Tenga en cuenta que los datos agregados no pueden aplicarse necesariamente a experiencias o características individuales, preste atención al contexto de los datos y recurra a fuentes de datos y métodos de análisis adecuados para evitar sacar conclusiones falsas.
11 Ley de Goodhart:
La ley de Goodhart, llamada así por el economista británico Charles Goodhart, afirma que cualquier relación estadística observada que se convierta en regla pierde su poder predictivo en cuanto se utiliza para tomar decisiones. En pocas palabras, esto significa que cuando una métrica concreta se convierte en la base de recompensas o sanciones, las personas u organizaciones desarrollan estrategias para optimizar esa métrica. Esto a menudo provoca efectos secundarios indeseables. Por ejemplo, si una empresa utiliza las cifras de ventas de un producto como indicador del rendimiento de sus vendedores y como base para una bonificación, éstos pueden tender a utilizar estrategias de venta a corto plazo para recibir la bonificación. Puede que haya vendido muchos productos, pero esta estrategia podría tener un efecto perjudicial para su empresa a largo plazo.
Solución: Para evitar la Ley de Goodhart, es importante desarrollar una evaluación del rendimiento holística y equilibrada. Para ello, se pueden utilizar múltiples indicadores de rendimiento para evaluar distintos aspectos del mismo. Es aconsejable tener en cuenta diferentes perspectivas para evaluar el rendimiento global de una persona u organización. Además, es importante revisar y ajustar periódicamente las métricas y los indicadores para garantizar que siguen proporcionando información pertinente y significativa sin crear incentivos para comportamientos indeseables. Una revisión crítica de los indicadores clave de rendimiento utilizados y de su posible impacto en el comportamiento puede ayudar a minimizar los efectos negativos de la Ley de Goodhart.
12. Falacia del jugador:
La falacia del jugador es un sesgo cognitivo en el que las personas creen que los sucesos aleatorios están influidos por sus resultados o frecuencias anteriores. Suponen erróneamente que una serie de acontecimientos, como una larga racha perdedora en el juego, debe conducir a un resultado positivo en el futuro para restablecer el equilibrio. Un ejemplo sencillo es la suposición de que al lanzar una moneda después de una serie de lanzamientos de cara, es más probable que salga cruz. Estadísticamente hablando, es realmente probable que el número de lanzamientos de cara y cruz sea del 50% cada uno a largo plazo. No obstante, cada lanzamiento individual es independiente del anterior y, por lo tanto, también tiene una probabilidad del 50% para cada resultado posible. La situación es similar en las ventas, por ejemplo. Por ejemplo, no debe suponer que un vendedor tiene más probabilidades de vender su producto en la próxima reunión con un cliente si no ha tenido éxito en reuniones anteriores. De hecho, estadísticamente hablando, el vendedor tiene la misma probabilidad de venta con cada conversación.
Solución: Para evitar la falacia del jugador, es importante darse cuenta de que los sucesos aleatorios no están influidos por los resultados anteriores. Estadísticamente, las probabilidades no cambian en función de los resultados anteriores. Comprender los principios básicos de la probabilidad puede ayudar a desarrollar expectativas realistas y a superar la falacia del jugador.
13. Sesgo de regresión:
El sesgo de regresión se produce cuando no se tienen en cuenta todas las variables relevantes al analizar los datos, lo que conduce a una relación incorrecta entre las variables. Esto puede llevar a predicciones inexactas o conclusiones incorrectas. Por ejemplo, un estudio que investigara la relación entre el consumo de chocolate y la esperanza de vida sin tener en cuenta factores como la dieta, el ejercicio o la predisposición genética no tendría sentido. Si sólo se analizan el consumo de chocolate y la esperanza de vida sin tener en cuenta los demás factores que influyen, se obtiene una imagen distorsionada de la realidad.
Solución: Para evitar el sesgo de regresión, es importante tener en cuenta todas las variables relevantes que puedan influir en la relación entre las variables analizadas al analizar los datos. Para ello es necesario realizar una investigación preliminar exhaustiva y conocer a fondo el tema en cuestión a fin de identificar los posibles factores de influencia. El uso de técnicas estadísticas como la regresión multivariante puede ayudar a analizar varias variables simultáneamente y aislar sus efectos individuales. En el caso de los análisis complejos, también es útil consultar a expertos y especialistas del campo correspondiente para asegurarse de que se tienen en cuenta todas las variables pertinentes. Un análisis cuidadoso y exhaustivo de los datos que incluya todos los factores influyentes es crucial para minimizar el riesgo de sesgo de regresión y obtener resultados precisos.
14. Sesgo de la minería de datos:
El sesgo en la extracción de datos hace referencia a las distorsiones en los resultados de los análisis de datos que pueden derivarse de una selección o interpretación inadecuadas de los mismos. Puede ocurrir, por ejemplo, cuando se realizan análisis de grandes conjuntos de datos para identificar patrones, correlaciones o tendencias y en el proceso se favorece o perjudica involuntariamente a determinados grupos. Un ejemplo práctico sería un algoritmo de selección de candidaturas que utilice datos históricos pero que, involuntariamente, favorezca o perjudique a candidatos de determinados grupos debido a los prejuicios existentes en materia de género o raza.
Solución: Para evitar el sesgo de la minería de datos, es importante tener cuidado al seleccionar e interpretar los datos. Un análisis minucioso de los datos debe garantizar que todos los factores y grupos relevantes estén adecuadamente representados. Las revisiones periódicas de los análisis pueden ayudar a identificar y corregir las distorsiones en una fase temprana. Deben elaborarse directrices transparentes y éticas para el uso de los datos, con el fin de garantizar que los análisis de datos se realicen de forma justa y equilibrada. La formación y las medidas de sensibilización de los analistas de datos y los responsables de la toma de decisiones pueden ayudar a concienciar sobre los sesgos de la minería de datos y garantizar que los análisis sean objetivos y justos. Por último, es importante analizar críticamente los resultados y buscar explicaciones alternativas a los patrones observados para identificar y corregir posibles distorsiones.
15. error de disposición (efecto de disposición):
El sesgo de disposición es un sesgo cognitivo en el que las personas tienden a atribuir los resultados positivos a sus propias capacidades y decisiones inteligentes, mientras que atribuyen los resultados negativos a circunstancias externas o a la mala suerte. Esto conduce a un desequilibrio en la autopercepción y puede dar lugar a decisiones irracionales. Este error puede observarse a menudo en el mercado de valores, por ejemplo: Muchos inversores ven un beneficio como el resultado de sus propios e inteligentes análisis, mientras que las pérdidas se achacan a las imprevisibles fluctuaciones del mercado.
Solución: Como ocurre con la mayoría de los errores de datos, un primer paso para evitar el error de disposición es darse cuenta de que existe y de que puede producirse en muchas situaciones. La autorreflexión sobre las decisiones y la voluntad de ver los fracasos como oportunidades de aprendizaje pueden ayudar a mitigar el error de disposición. También es útil obtener perspectivas externas, ya sea mediante revisiones por pares, comentarios de colegas o consejos de expertos. Analizar objetivamente los éxitos y los fracasos, teniendo en cuenta todos los factores relevantes, puede ayudar a desarrollar una autopercepción más realista y evitar decisiones irracionales. La reflexión regular y la conciencia de los propios patrones de pensamiento son cruciales para reconocer el error de disposición y abordarlo activamente.
Conclusión
Fiel al lema «nunca te fíes de una estadística que no hayas falsificado tú mismo», también debes ser consciente de que puede haber muchas trampas o escollos a la hora de analizar datos con inteligencia empresarial. Una vez que conozca los distintos errores de los datos, desde el cherry picking hasta los errores de disposición, podrá adoptar un enfoque crítico de los resultados de los análisis y asegurarse de que se toman las decisiones correctas. Los errores en los datos pueden evitarse adoptando un enfoque transparente y considerando diferentes perspectivas, métodos de análisis y técnicas.
El software de inteligencia empresarial myPARM BIact ofrece una solución óptima para superar estos retos. Gracias a sus funciones avanzadas de análisis de datos, a la transparencia de sus informes y a los mecanismos incorporados para revisar sus datos, myPARM BIact permite un análisis de datos preciso y fiable y, por tanto, una base sólida para los procesos de toma de decisiones basados en datos. También puede utilizar myPARM BIact puede traducir inmediatamente las decisiones tomadas en medidas.
Más información sobre el software de inteligencia empresarial myPARM BIact:
¿Desea conocer myPARM BIact en una demostración? Entonces, ¡concierte una cita con nosotros ahora mismo!