15 erreurs de données à éviter
Les difficultés liés à la Business Intelligence
Les analyses sont universelles, mais essentielles pour des informations précieuses et un succès durable, indépendamment de la taille de l’entreprise et de l’industrie. Malheureusement, les résultats de ces analyses sont souvent décevants, avec de nombreux facteurs contribuant à des inexactitudes dans les conclusions des données. Nous expliquons quels sont les écueils dans l’analyse des données auxquels vous devez être attentif et comment les éviter pour exploiter pleinement le potentiel de vos données. Rejoignez-nous pour explorer des aberrations de données telles que l’effet d’ancrage, le paradoxe de Simpson ou l’infâme « biais du parieur » pour acquérir une compréhension approfondie des idées fausses les plus courantes en Business Intelligence.
Erreurs de données et comment les éviter
1. Sélection des cerises :
La sélection des cerises est un piège de données courant où seuls certains points de données ou informations sont choisis sélectivement pour étayer une thèse, tandis que d’autres données pertinentes sont délibérément ignorées. Cette approche trompeuse peut totalement déformer les résultats d’une analyse de données en faussant la vision d’ensemble des données. Par exemple, la sélection des cerises peut conduire à présenter une situation comme étant significativement meilleure ou pire qu’elle ne l’est réellement. Imaginez, par exemple, que votre département marketing souhaite analyser l’efficacité d’un produit. Si seules les évaluations positives des clients ou les success stories sont utilisées à cette fin, vous pouvez supposer que l’analyse montrera une image déformée de la réalité. Dans ce cas particulier, l’analyse montrera une image très positive de l’efficacité du produit. Cependant, si de nombreuses évaluations négatives ou voix critiques ne sont pas prises en compte dans l’analyse, il se pourrait que votre produit ne soit pas particulièrement efficace. Ainsi, pour optimiser ou développer davantage votre produit, vous devriez inclure ces déclarations négatives dans l’analyse.
Solution : Pour éviter la sélection des cerises, il est crucial de réaliser une analyse de données systématique et transparente. Par conséquent, toutes les données disponibles doivent être collectées, des méthodes statistiques objectives doivent être appliquées et toutes les données doivent être publiées. Veillez particulièrement à inclure des données qui ne correspondent pas à l’hypothèse que vous essayez de prouver. Les revues par les pairs et les examens externes par des experts indépendants peuvent également aider à identifier et à corriger de tels biais. En présentant les données de manière honnête et complète, vous garantissez que les analyses sont basées sur une base solide et ne sont pas influencées par la sélection des cerises.
2. Biais de survie :
Le biais de survie est un biais qui se produit lorsque seuls les cas réussis ou survivants sont pris en compte dans une analyse, tandis que les cas infructueux ou non survivants sont omis. Cela conduit à une représentation irréaliste des chances de réussite, car des données importantes sur l’échec sont manquantes. Ce biais de données peut donc conduire à des conclusions erronées, car les données omises peuvent constituer une partie importante de l’image globale. On trouve souvent ce biais, par exemple, dans des études sur des entreprises prospères ou des personnalités célèbres. Les histoires d’entreprises ou de personnes réussies sont souvent analysées, tandis que les entreprises échouées ou les personnes inconnues ne sont pas prises en compte. Cela conduit à une évaluation déformée des facteurs de réussite. Un cas souvent cité de biais de survie est l’étude des avions pendant la Seconde Guerre mondiale. Pour décider où renforcer l’armure, les avions revenus avec des impacts de balles étaient d’abord examinés. Sur cette base, les parties avec le plus de trous de balle devaient être renforcées. Ce qui semble logique au départ avait cependant une faille cruciale : tous les avions qui s’étaient écrasés à cause d’un impact de balle n’étaient pas dans les données analysées. On a ensuite découvert que les parties des avions avec le moins de trous de balle dans l’étude devaient être renforcées – après tout, la plupart des avions s’écrasaient lorsqu’ils étaient touchés dans ces zones.
Solution : Utilisez une base de données complète qui inclut tous les cas réussis ainsi que tous les cas échoués pour éviter ce phénomène. Comme dans l’exemple ci-dessus, il n’est pas toujours garanti qu’un ensemble complet de données soit disponible, vous devriez donc examiner attentivement les données avant de les analyser pour éviter des conclusions erronées. Vous devez donc toujours être conscient de l’éventuelle absence de données et rechercher spécifiquement de tels cas pour minimiser ou éviter les distorsions dues au biais de survie.
3. Effet cobra :
L’effet cobra fait référence à une situation dans laquelle une solution proposée à un problème a des effets secondaires indésirables qui exacerbent le problème ou créent de nouveaux problèmes. Il s’agit donc d’une incitation fausse. Le terme provient d’une anecdote de l’époque coloniale en Inde : à l’époque, de nombreuses personnes en Inde mouraient de morsures de cobra. Pour se débarrasser de la population de cobras, les dirigeants coloniaux britanniques offraient une récompense pour chaque cobra capturé. Malheureusement, ils ne réalisaient pas que cela pouvait fournir la mauvaise incitation. En réponse, les habitants ont commencé à élever des cobras en échange de la récompense. Après la fin de l’initiative gouvernementale, ces cobras élevés étaient souvent relâchés dans la nature, entraînant une augmentation drastique de la population de cobras plutôt qu’une diminution.
On observe également souvent l’effet cobra dans les économies : par exemple, si un gouvernement tente de réduire l’inflation en réduisant drastiquement la masse monétaire, cela peut entraîner une détérioration des conditions économiques. La population a alors moins d’argent à investir et à dépenser. Cela peut à son tour entraîner une baisse de l’activité économique.
Solution : Pour éviter l’effet cobra, il est crucial de considérer attentivement l’impact à long terme de toute solution proposée pour éviter les effets secondaires indésirables. La consultation d’experts et de parties prenantes peut aider à prendre en compte différentes perspectives et à reconnaître les conséquences imprévues avant la mise en œuvre d’une solution. La surveillance continue et l’ajustement des mesures sont également importants pour éviter l’effet cobra et des conséquences indésirables similaires.
4. Fausse causalité :
La fausse causalité est une erreur qui se produit lorsqu’on suppose l’existence d’une relation de cause à effet entre deux événements, même s’ils montrent simplement une corrélation aléatoire ou si d’autres variables cachées expliquent la relation. Un exemple classique est la corrélation entre l’augmentation des ventes de crème glacée et l’augmentation des accidents de piscine en été. Un coup d’œil rapide à une telle analyse pourrait laisser penser que les accidents de piscine sont causés par une augmentation de la consommation de crème glacée. Cependant, les deux événements sont causés par la saison chaude.
Solution : Soyez prudent pour distinguer soigneusement entre la corrélation et la causalité afin d’éviter cette erreur. Une corrélation mesure la relation statistique entre deux variables. Les relations causales, en revanche, fournissent des informations sur la cause et l’effet. Une corrélation peut donc indiquer une relation causale, mais cela ne doit pas nécessairement être le cas. Des méthodes statistiques telles que des expériences et des groupes témoins peuvent aider à identifier des relations de cause à effet réelles. Par conséquent, analysez toutes les données disponibles et vérifiez les explications alternatives pour les corrélations observées. De plus, une connaissance approfondie du domaine spécifique peut aider à mieux comprendre les corrélations pertinentes et à éviter des hypothèses infondées. Une analyse critique consciente et une attitude ouverte envers différentes interprétations possibles sont cruciales pour éviter des conclusions incorrectes concernant la fausse causalité.
5. Pêche aux données :
La pêche aux données, également connue sous le nom de P-hacking ou d’attrapage de données, désigne la pratique de rechercher de grandes quantités de données à la recherche de résultats ou de motifs statistiquement significatifs sans tester une hypothèse spécifique. Cela peut conduire à des résultats trompeurs, car des résultats statistiquement significatifs sont attendus si suffisamment de tests sont effectués, même s’il n’y a pas d’effet réel. Par exemple, les chercheurs peuvent tester des centaines de variables par rapport à une cible spécifique, puis ne présenter que les résultats qui semblent statistiquement significatifs. Par exemple, si un essai de médicament teste l’effet de différentes doses du médicament sur divers symptômes, les chercheurs devraient prendre en compte tous les résultats. Cependant, si la pêche aux données est utilisée pour sélectionner uniquement la dose qui montre un effet statistiquement significatif sur un symptôme sans tenir compte des autres tests, cela peut conduire à une présentation déformée des résultats.
Solution : Pour éviter la pêche aux données, il est important de définir une hypothèse claire avant la collecte de données et de planifier les méthodes d’analyse à l’avance. Si plusieurs tests sont effectués, une correction telle que le test de Bonferroni devrait être appliquée pour réduire le risque de faux positifs. La transparence et l’ouverture sont également cruciales. Vous devriez documenter tous les tests effectués et leurs résultats, même s’ils ne sont pas significatifs. Cela permet une évaluation complète et empêche la présentation sélective de résultats qui pourraient être biaisés par la pêche aux données.
6. Biais de confirmation :
Le biais de confirmation est la tendance à privilégier les informations ou données confirmant les croyances ou hypothèses existantes tout en ignorant ou rejetant les informations contradictoires. Cela se produit parce que les gens recherchent inconsciemment la confirmation de ce qu’ils croient déjà au lieu d’évaluer objectivement toutes les informations disponibles. Cela peut conduire à une interprétation biaisée des données. Un exemple concret serait un investisseur qui a tendance à ne prêter attention qu’aux actualités et analyses soutenant sa vision positive d’une action, tout en ignorant les rapports négatifs ou les avertissements de risques.
Solution : Pour éviter le biais de confirmation, il est important de prendre conscience de cette tendance et de la combattre activement. La première étape est de favoriser une mentalité ouverte et critique. En science, des méthodes telles que les études en double aveugle et les revues par les pairs aident à assurer des évaluations objectives. Dans votre organisation, vous pouvez solliciter des opinions et des retours d’individus avec des points de vue et des expériences différents pour remettre en question et élargir votre point de vue. Il est également utile de vous auto-évaluer régulièrement pour voir si vous restez objectif lors de l’évaluation de l’information ou si vous cherchez inconsciemment la confirmation. L’influence du biais de confirmation peut être minimisée grâce à une réflexion consciente sur soi-même et à l’utilisation de différentes perspectives.
7. Régression vers la moyenne :
La régression vers la moyenne décrit le phénomène selon lequel des valeurs extrêmement élevées ou basses dans une mesure ont tendance à revenir à des valeurs moins extrêmes lorsqu’elle est répétée. Cela se produit indépendamment de toute intervention ou changement et repose sur des fluctuations aléatoires dans les données. Un exemple de cela est la performance académique. Il est probable que les étudiants qui réussissent exceptionnellement bien à un test obtiennent des résultats moins remarquables lors d’une reprise ultérieure du test. Cela est dû à des fluctuations normales, par exemple en raison de la forme quotidienne des étudiants.
Solution : Pour éviter la régression vers la moyenne, il est important de comprendre que des valeurs extrêmes peuvent souvent se produire par hasard et ne reflètent pas nécessairement une relation de cause à effet. Par conséquent, lors de l’évaluation de la performance ou des résultats, il ne faut pas réagir de manière excessive aux valeurs extrêmes car elles ont tendance à revenir à des valeurs moins extrêmes lors de la répétition de la mesure. Il est conseillé d’utiliser des méthodes statistiques pour reconnaître la nature aléatoire des valeurs extrêmes et de toujours prendre en compte le contexte lors de l’interprétation des données. Des vérifications régulières et une analyse critique peuvent aider à tirer des conclusions fiables sans être influencé par des fluctuations aléatoires.
8. Effet d’ancrage :
L’effet d’ancrage, également appelé biais d’ancrage, désigne la tendance à être fortement influencé par une valeur initiale ou une information lors de la prise de décisions. Même si cet ancrage est sans rapport ou basé sur une fausse hypothèse, les gens ont tendance à s’orienter fortement vers lui. Par exemple, le premier prix cité dans une négociation de prix est un ancrage qui a été démontré pour fortement influencer le résultat de la négociation. Par exemple, si un vendeur fixe un prix très élevé, les acheteurs auront tendance à orienter leurs propres offres plus près de ce prix élevé.
Solution : Comprenez comment les ancres peuvent influencer nos décisions. Pour ce faire, éloignez-vous activement d’une valeur initialement mentionnée et utilisez des critères d’évaluation objectifs. Il peut être utile de considérer des valeurs d’ancrage alternatives basées sur des données objectives et de les utiliser comme base pour les décisions. Par exemple, dans les négociations, il peut être utile de se concentrer sur des faits pertinents et des prix comparatifs afin d’être moins influencé par un point de départ arbitraire. La prise de décision consciente basée sur des données et des analyses solides peut aider à minimiser l’impact de l’heuristique d’ancrage. Il en va de même dans le cas de la collecte de données. Par exemple, si vous concevez une enquête, soyez conscient que les répondants peuvent être influencés par l’effet d’ancrage, ce qui peut affecter la validité de l’enquête. Dans de tels cas, choisissez les valeurs d’ancrage très soigneusement ou ne les utilisez pas si possible.
9. Paradoxe de Simpson :
Le paradoxe de Simpson décrit une illusion statistique dans laquelle une tendance dans l’ensemble des données se produit dans la direction opposée à la tendance dans les groupes individuels. Cela signifie qu’une observation qui apparaît dans une analyse globale peut être inversée lorsque les données sont divisées en différents sous-groupes. Un exemple pratique pourrait être une étude sur le succès du traitement de deux hôpitaux différents. Dans l’analyse globale, un hôpital pourrait avoir un taux de survie plus élevé. Cependant, lorsque les données sont décomposées en fonction de la gravité de la maladie, l’autre hôpital pourrait avoir un taux de survie plus élevé à tous les niveaux de gravité.
Solution : Pour éviter le paradoxe de Simpson, il est important de prêter attention aux interactions possibles entre les variables dans les analyses statistiques. Il est conseillé d’examiner de plus près les différences significatives dans l’ensemble des données pour voir si ces différences sont cohérentes à travers les sous-groupes. Une analyse plus approfondie considérant différentes variables et examinant les interactions possibles entre elles peut aider à reconnaître et à comprendre le paradoxe. Pour des données très complexes, la collaboration avec des statisticiens ou des analystes de données expérimentés est souvent conseillée pour assurer une interprétation précise et fiable des résultats.
10. Erreur écologique :
L’erreur écologique se réfère à la conclusion incorrecte sur les caractéristiques individuelles basée sur des données agrégées de groupe. Ce biais se produit lorsque des corrélations statistiques au niveau du groupe sont appliquées aux individus sans tenir compte des différences individuelles. Par exemple, si vous regardez une ville riche où le revenu moyen des habitants est très élevé, vous pourriez conclure que tous les habitants de la ville sont riches. En réalité, il est plus probable que même dans une telle ville, il existe des différences considérables de revenus parmi les habitants individuels, de sorte que certains habitants pourraient être très riches tandis que d’autres pourraient être très pauvres.
Solution : Pour éviter l’erreur écologique, il est important de faire la distinction entre les caractéristiques agrégées et individuelles lors de l’interprétation des données. Les analyses de données ne devraient donc pas seulement être effectuées au niveau du groupe, mais aussi au niveau individuel pour obtenir une idée plus précise des différences réelles. Soyez conscient que les données agrégées ne peuvent pas nécessairement être transférées aux expériences ou caractéristiques individuelles, faites attention au contexte des données et faites confiance aux sources et méthodes d’analyse appropriées pour éviter de tirer des conclusions fausses.
11. Loi de Goodhart :
La loi de Goodhart, nommée d’après l’économiste britannique Charles Goodhart, stipule qu’une relation statistique observée et transformée en règle perd sa capacité prédictive dès qu’elle est utilisée pour la prise de décision. En d’autres termes, cela signifie que lorsqu’un ratio ou une métrique particulière est utilisé comme base pour des récompenses ou des sanctions, les personnes ou les organisations développent des stratégies pour optimiser ce ratio. Cela conduit souvent à des effets secondaires indésirables. Par exemple, si une entreprise utilise les chiffres de vente d’un produit comme indicateur de performance pour son personnel de vente et comme base pour une prime, ils pourraient avoir tendance à utiliser des stratégies de vente à court terme pour obtenir la prime. Vous avez peut-être vendu beaucoup de produits, mais cette stratégie pourrait avoir des effets néfastes sur votre entreprise à long terme.
Solution : Pour éviter la loi de Goodhart, il est important de développer une évaluation de la performance holistique et équilibrée. Cela peut se faire en utilisant plusieurs mesures de performance pour évaluer différents aspects de la performance. Il est conseillé de considérer différents angles pour évaluer la performance globale d’un individu ou d’une organisation. De plus, il est important de revoir et d’ajuster régulièrement les mesures et indicateurs pour garantir qu’ils continuent de fournir des informations pertinentes et significatives sans créer d’incitations à des comportements indésirables. Une revue critique des mesures de performance utilisées et de leur impact potentiel sur le comportement peut aider à minimiser les effets négatifs de la loi de Goodhart.
12.Erreur du parieur :
L’erreur du parieur est un biais cognitif dans lequel les gens croient que des événements aléatoires sont influencés par leurs résultats ou fréquences précédents. Ils supposent incorrectement qu’une certaine série d’événements, telle qu’une longue série de pertes au jeu, doit conduire à un résultat positif futur pour rétablir l’équilibre. Un exemple simple est l’hypothèse que, lors du lancer d’une pièce après une série de faces, un pile est plus probable. Statistiquement parlant, il est effectivement probable que le nombre de faces et de piles soit de 50 pour cent chacun à long terme. Néanmoins, chaque lancer est indépendant du précédent et a donc également une probabilité de 50 pour cent pour chaque résultat possible. La situation est similaire dans les ventes, par exemple. Vous ne devriez pas supposer que la probabilité qu’un commercial vende votre produit à la prochaine réunion client augmente s’il a été infructueux lors des réunions précédentes. Plutôt, le commercial a la même probabilité statistique de vendre à chaque appel.
Solution : Pour éviter l’erreur du parieur, il est important de réaliser que les événements aléatoires ne sont pas influencés par les résultats précédents. Statistiquement, les probabilités ne changent pas en fonction des résultats passés. Comprendre les principes de base de la probabilité peut aider à développer des attentes réalistes et à surmonter l’erreur du parieur.
13. Biais de régression :
Le biais de régression se produit lorsque toutes les variables pertinentes ne sont pas prises en compte lors de l’analyse des données, ce qui conduit à une relation incorrecte entre les variables. Cela peut entraîner des prédictions inexactes ou des conclusions erronées. Par exemple, une étude analysant la relation entre la consommation de chocolat et l’espérance de vie sans prendre en compte des facteurs tels que l’alimentation, l’exercice ou la prédisposition génétique ne serait pas significative. Si seule la consommation de chocolat et l’espérance de vie sont analysées sans tenir compte des autres facteurs influents, une image déformée de la réalité émerge.
Solution : Pour éviter le biais de régression, il est important de prendre en compte toutes les variables pertinentes qui pourraient influencer la relation entre les variables analysées lors de l’analyse des données. Cela nécessite une enquête préliminaire approfondie et une grande compréhension du domaine d’étude pour identifier les facteurs influents potentiels. L’utilisation de techniques statistiques telles que la régression multivariée peut aider à analyser plusieurs variables simultanément et à isoler leurs effets individuels. Pour des analyses complexes, il est également utile de consulter des experts et des spécialistes du domaine concerné pour garantir que toutes les variables pertinentes sont prises en compte. Une analyse prudente et complète des données, qui inclut tous les facteurs influents, est cruciale pour minimiser le risque de biais de régression et obtenir des résultats précis.
14. Biais dans le Data Mining :
Le biais dans le Data Mining fait référence à des distorsions dans les résultats des analyses de données qui peuvent découler de la sélection ou de l’interprétation inappropriée des données. Cela peut se produire, par exemple, lorsque des analyses sont effectuées sur de grands ensembles de données pour identifier des motifs, des corrélations ou des tendances et que certains groupes sont favorisés ou défavorisés involontairement. Un exemple pratique serait un algorithme de sélection de candidats à un emploi utilisant des données historiques qui favoriserait ou défavoriserait involontairement des candidats de certains groupes en raison de biais existants liés au genre ou à la race.
Solution : Pour éviter le biais dans l’exploration des données, il est important d’être prudent lors de la sélection et de l’interprétation des données. Une analyse approfondie des données devrait garantir que tous les facteurs et groupes pertinents sont adéquatement représentés. Des examens réguliers des analyses peuvent aider à identifier et à corriger les biais à un stade précoce. Des directives transparentes et éthiques pour l’utilisation des données doivent être élaborées pour garantir que les analyses de données sont effectuées de manière juste et équilibrée. La formation et les mesures de sensibilisation des analystes de données et des décideurs peuvent contribuer à sensibiliser au biais dans l’exploration des données et garantir que les analyses sont objectives et équitables. Enfin, il est important de scruter de manière critique les résultats et de rechercher des explications alternatives aux motifs observés pour identifier et corriger d’éventuels biais.
15. Effet de disposition :
Le biais de disposition est une distorsion cognitive selon laquelle les individus ont tendance à attribuer les résultats positifs à leurs propres compétences et décisions judicieuses, tandis qu’ils imputent les résultats négatifs à des circonstances externes ou à la malchance. Cela conduit à un déséquilibre dans l’auto-perception et peut entraîner des décisions irrationnelles. Cette erreur est souvent observée sur le marché boursier, par exemple : de nombreux investisseurs considèrent un profit comme le résultat de leurs propres analyses intelligentes, tandis que les pertes sont imputées à des fluctuations imprévisibles du marché.
Solution : Comme pour la plupart des autres erreurs de données, la première étape pour éviter l’erreur de disposition est de se rendre compte qu’elle existe et peut survenir dans de nombreuses situations. La réflexion sur les décisions et la volonté de considérer les échecs comme des opportunités d’apprentissage peuvent aider à atténuer l’erreur de disposition. Il est également utile d’obtenir des perspectives externes, que ce soit par des examens par les pairs, des commentaires de collègues ou des conseils d’experts. Analyser objectivement les succès et les échecs, en tenant compte de tous les facteurs pertinents, peut aider à développer une auto-perception plus réaliste et à prévenir les décisions irrationnelles. La réflexion régulière et la prise de conscience des schémas de pensée sont cruciales pour reconnaître l’erreur de disposition et la combattre activement.
Conclusion
Fidèle à la devise « une statistique fiable est celle que vous avez manipulée personnellement », vous devez également être conscient qu’il peut y avoir de nombreux pièges ou obstacles lors de l’analyse de données avec l’intelligence d’affaires. Dès que vous êtes conscient des différentes erreurs de données, du choix sélectif aux erreurs de disposition, vous pouvez traiter les résultats des analyses de manière critique et ainsi garantir que les bonnes décisions sont prises. En adoptant une approche transparente et en considérant différentes perspectives, méthodes et techniques d’analyse, les erreurs de données peuvent être évitées.
Le logiciel d’intelligence d’affaires myPARM BIact offre une solution optimale pour surmonter ces défis. Avec sa fonctionnalité avancée d’analyse de données, ses options de rapports transparents et ses mécanismes intégrés d’examen de vos données, myPARM BIact permet une analyse de données précise et fiable, fournissant ainsi une base solide pour les processus de prise de décision basés sur les données. De plus, myPARM BIact vous permet de traduire immédiatement les décisions que vous prenez en actions.
En savoir plus sur le logiciel de Business Intelligence myPARM BIact:
Souhaiteriez-vous découvrir myPARM BIact dans le cadre d'une démonstration? Contactez-nous dès maintenant pour un rendez-vous!