15 errori nei dati che dovresti evitare
Sfide nella business intelligence
Le analisi sono universali, ma cruciali per ottenere informazioni preziose e un successo duraturo, indipendentemente dalle dimensioni dell’azienda e dal settore. Sfortunatamente, i risultati di queste analisi sono spesso deludenti, poiché numerosi fattori contribuiscono alle inesattezze nei risultati dei dati. Spieghiamo quali ostacoli nell’analisi dei dati dovresti conoscere e come puoi evitarli per sfruttare tutto il potenziale dei tuoi dati. Unisciti a noi nell’esplorazione delle aberrazioni dei dati come l'”effetto di ancoraggio”, il “paradosso di Simpson” o il famigerato “errore del giocatore d’azzardo” per acquisire una comprensione più profonda delle idee sbagliate più comuni nella business intelligence.
Errori nei dati e come evitarli
1. Raccolta delle ciliegie:
Il cherry picking è una comune trappola dei dati in cui solo alcuni dati o informazioni vengono scelti selettivamente per supportare una tesi, mentre altri dati rilevanti vengono deliberatamente ignorati. Questo approccio fuorviante può travisare completamente i risultati di un’analisi dei dati poiché distorce il quadro generale dei dati. Ad esempio, la scelta della scelta può portare a presentare una situazione significativamente migliore o peggiore di quanto non sia in realtà. Immagina, ad esempio, che il tuo reparto marketing voglia analizzare l’efficienza di un prodotto. Se a questo scopo vengono utilizzate solo recensioni positive dei clienti o storie di successo, si può presumere che l’analisi mostri un’immagine distorta della realtà. In questo caso particolare, l’analisi mostrerà un quadro molto positivo dell’efficienza del prodotto. Tuttavia, se ci sono molte recensioni negative o voci critiche che non vengono prese in considerazione nell’analisi, è possibile che il tuo prodotto non sia particolarmente efficiente. Quindi, per ottimizzare o sviluppare ulteriormente il tuo prodotto, dovresti includere queste affermazioni negative nell’analisi.
Soluzione: per evitare il cherry-picking, è fondamentale effettuare un’analisi dei dati sistematica e trasparente. Pertanto, tutti i dati disponibili dovrebbero essere raccolti, dovrebbero essere applicati metodi statistici oggettivi e tutti i dati dovrebbero essere pubblicati. Presta particolare attenzione a includere dati che non si adattano all’ipotesi che stai cercando di dimostrare. Anche le revisioni tra pari e le revisioni esterne da parte di esperti indipendenti possono aiutare a identificare e correggere tali pregiudizi. Presentando i dati in modo onesto e completo, ti assicuri che le analisi siano basate su basi solide e non siano influenzate dalla selezione selettiva.
2. Bias di sopravvivenza:
Il bias di sopravvivenza è un bias che si verifica quando in un’analisi vengono considerati solo i casi riusciti o sopravvissuti, mentre i casi non riusciti o non sopravvissuti vengono omessi. Ciò porta ad una rappresentazione irrealistica delle possibilità di successo, poiché mancano dati importanti sul fallimento. Questa distorsione dei dati può quindi portare a conclusioni errate, poiché i dati omessi possono costituire una parte importante del quadro generale. Il bias di sopravvivenza si riscontra spesso, ad esempio, negli studi su aziende di successo o personaggi famosi. Spesso vengono analizzate le storie di aziende o persone di successo, mentre non vengono prese in considerazione le aziende fallite o le persone sconosciute. Ciò porta ad una valutazione distorta dei fattori di successo. Un caso di bias di sopravvivenza particolarmente citato è lo studio degli aeroplani durante la Seconda Guerra Mondiale. Per decidere dove rinforzare l’armatura, sono stati prima esaminati gli aerei restituiti con fori di proiettile. Sulla base di ciò si dovevano rinforzare le parti con il maggior numero di fori di proiettile. Ciò che a prima vista poteva sembrare logico aveva però un difetto cruciale: tutti gli aerei precipitati a causa di un foro di proiettile non erano presenti nei dati analizzati. Successivamente si è scoperto che le parti dell’aereo con il minor numero di fori di proiettile nello studio avrebbero dovuto essere rinforzate: dopo tutto, la maggior parte degli aerei si è schiantata quando è stata colpita in queste aree.
Soluzione: utilizzare un database completo che includa tutti i casi riusciti e tutti quelli falliti per prevenire questo fenomeno. Poiché, come nell’esempio precedente, non è sempre garantita la disponibilità di un set completo di dati, è necessario dare uno sguardo critico ai dati prima di analizzarli per evitare di trarre conclusioni errate. Dovresti quindi essere sempre consapevole dei possibili dati mancanti e cercare specificamente tali casi per ridurre al minimo o prevenire la distorsione dovuta al pregiudizio della sopravvivenza.
3. Effetto Cobra/incentivo perverso:
L’effetto cobra si riferisce a una situazione in cui una soluzione proposta a un problema ha effetti collaterali indesiderati che esacerbano il problema o creano nuovi problemi. Si tratta quindi di un falso incentivo. Il termine trae origine da un aneddoto risalente all’epoca coloniale in India: a quel tempo, molte persone in India morivano a causa dei morsi di cobra. Per liberare la popolazione dai cobra, i governanti coloniali britannici offrirono una ricompensa per ogni cobra catturato. Sfortunatamente, non si rendevano conto che ciò avrebbe potuto fornire l’incentivo sbagliato. In risposta, la gente del posto iniziò ad allevare cobra in cambio della ricompensa. Dopo che il governo ha posto fine all’iniziativa, questi cobra allevati sono stati spesso rilasciati in natura, portando a un drastico aumento della popolazione di cobra anziché a una lasciata.
Spesso possiamo osservare l’effetto cobra anche nelle economie: se ad esempio un governo cerca di ridurre l’inflazione riducendo drasticamente l’offerta di moneta, ciò può portare a un deterioramento delle condizioni economiche. La popolazione ha quindi meno soldi da investire e spendere. Ciò a sua volta può portare un calo dell’attività economica.
Soluzione: per evitare l’effetto cobra, è fondamentale considerare attentamente l’impatto a lungo termine di qualsiasi soluzione proposta per garantire che vengano evitati effetti collaterali indesiderati. Il coinvolgimento di esperti e parti interessate può aiutare a considerare diverse prospettive e a riconoscere le conseguenze impreviste prima che venga implementata una soluzione. Anche il monitoraggio continuo e l’adeguamento delle misure sono importanti per garantire che si eviti l’effetto cobra e simili conseguenze indesiderate.
4. Falsa causalità:
La falsa causalità è un errore che si verifica quando si presume che esista una relazione causa-effetto tra due eventi, anche se questi mostrano solo una collisione casuale o altre variabili nascoste spiegano la relazione. Un classico esempio è la correlazione tra l’aumento delle vendite di gelati e l’aumento degli incidenti in piscina nel periodo estivo. Un rapido sguardo all’analisi del racconto potrebbe suggerire che gli incidenti in piscina siano causa da un maggiore consumo di gelato. Entrambi gli eventi sono però causa dalla stagione calda.
Soluzione: fare attenzione a distinguere attentamente tra correlazione e causalità per evitare questo errore. Una correlazione misura la relazione statistica tra due variabili. Le relazioni causali, invece, forniscono informazioni su causa ed effetto. Una correlazione può quindi indicare una relazione causale, ma non deve necessariamente essere così. Metodi statistici come esperimenti e gruppi di controllo possono aiutare a identificare le reali relazioni di causa-effetto. Pertanto, analizzare tutti i dati disponibili e verificare spiegazioni alternative per le correlazioni osservate. Inoltre, una conoscenza approfondita della specifica area tematica può aiutare a comprendere meglio le correlazioni rilevanti ed evitare ipotesi infondate. Un’analisi critica consapevole e un atteggiamento aperto verso le diverse possibili interpretazioni sono cruciali per evitare conclusioni errate riguardo alla falsa causalità.
5. Pesca dei dati:
La pesca dei dati, nota anche come P-hacking o data grabbing, si riferisce alla pratica di cercare grandi quantità di dati per risultati o modelli statisticamente significativi senza testare un’ipotesi specifica. Ciò può portare a risultati fuorvianti, poiché se vengono eseguiti un numero sufficiente di test ci si aspettano risultati statisticamente significativi, anche se non vi è alcun effetto reale. Ad esempio, i ricercatori potrebbero testare centinaia di variabili rispetto a un obiettivo specifico e quindi presentare solo i risultati che appaiono statisticamente significativi. Ad esempio, se una sperimentazione farmacologica sta testando l’effetto di diverse dosi del farmaco su una varietà di sintomi, i ricercatori dovrebbero considerare tutti i risultati. Tuttavia, se si utilizza la pesca dei dati per selezionare solo il dosaggio che mostra un effetto statisticamente significativo su un sintomo senza prendere in considerazione gli altri test, ciò può portare a una presentazione distorta dei risultati.
Soluzione: per prevenire la pesca dei dati, è importante definire un’ipotesi chiara prima della raccolta dei dati e pianificare in anticipo i metodi di analisi. Se vengono eseguiti più test, è necessario applicare una correzione come il test di Bonferroni per ridurre il rischio di falsi positivi. Anche la trasparenza e l’apertura sono cruciali. Dovresti documentare tutti i test eseguiti e i loro risultati, anche se non sono significativi. Ciò consente una valutazione completa e impedisce la rendicontazione selettiva dei risultati che potrebbero essere influenzati dalla pesca dei dati.
6. Bias di conferma:
Il bias di conferma è la tendenza a dare priorità alle informazioni o ai dati che confermano credenze o ipotesi esistenti ignorando o rifiutando informazioni contraddittorie. Questo perché le persone cercano inconsciamente conferma di ciò in cui già credono invece di valutare oggettivamente tutte le informazioni disponibili. Ciò può portare a un’interpretazione distorta dei dati. Un esempio di vita reale potrebbe essere un investitore che tende a prestare attenzione solo alle notizie e alle analisi che supportano la sua visione positiva di un titolo, ignorando i rapporti negativi o gli avvertimenti di potenziali rischi.
Soluzione: per prevenire il bias di conferma, è importante essere consapevoli di questa tendenza e combatterla attivamente. Il primo passo è promuovere una mentalità aperta e critica. Nella scienza, metodi come gli studi in doppio cieco e le revisioni tra pari aiutano a garantire valutazioni obiettive. Nella tua organizzazione, puoi cercare opinioni e feedback da persone con punti di vista ed esperienze diverse per sfidare ed espandere il tuo punto di vista. È anche utile controllarsi regolarmente per vedere se si rimane obiettivi quando si valutano le informazioni o si cerca inconsciamente conferma. L’influenza del bias di conferma può essere ridotta al minimo attraverso l’autoriflessione consapevole e l’uso di diverse prospettive.
7. Regressione alla media:
La regressione alla media descrive il fenomeno per cui valori estremamente alti o bassi in una misurazione tendono a ritornare a valori meno estremi quando la misurazione viene ripetuta. Ciò avviene indipendentemente da qualsiasi intervento o modifica e si basa su fluttuazioni casuali dei dati. Un esempio di ciò è il rendimento scolastico. È probabile che gli studenti che ottengono risultati eccezionalmente buoni in un test ottengano risultati meno eccezionali in una successiva ripetizione del test. Ciò è dovuto alle normali fluttuazioni, dovute ad esempio alla forma quotidiana degli studenti.
Soluzione: per evitare una regressione verso la media, è importante comprendere che i valori estremi possono spesso verificarsi per caso e non indicano necessariamente una relazione di causa-effetto. Pertanto, quando si valutano le prestazioni o i risultati, non si dovrebbe reagire in modo eccessivo ai valori estremi poiché questi tenderanno a tornare a valori meno estremi quando la misurazione viene ripetuta. È consigliabile utilizzare metodi statistici per riconoscere la natura casuale dei valori estremi e considerare sempre il contesto nell’interpretazione dei dati. Controlli regolari e analisi critiche possono aiutare a trarre conclusioni affidabili senza essere influenzati da fluttuazioni casuali.
8. Effetto di ancoraggio:
L’effetto di ancoraggio, noto anche come bias di ancoraggio, si riferisce alla tendenza ad essere fortemente influenzati da un valore iniziale o da un’informazione quando si prendono decisioni. Anche se questa ancora è irrilevante o si basa su un falso presupposto, le persone tendono ad orientarsi fortemente verso di essa. Ad esempio, il primo prezzo quotato in una negoziazione di prezzo è un’ancora che ha dimostrato di influenzare fortemente l’esito della negoziazione. Ad esempio, se un venditore fissa un prezzo molto alto, gli acquirenti tenderanno ad orientare le proprie offerte più vicino a questo prezzo elevato.
Soluzione: capire come le ancore possono influenzare le nostre decisioni. Per fare ciò, prendi attivamente le distanze da un valore inizialmente indicato e utilizza criteri di valutazione oggettivi. Può essere utile considerare valori di ancoraggio alternativi basati su dati oggettivi e utilizzarli come base per le decisioni. Ad esempio, nelle negoziazioni può essere utile concentrarsi su fatti rilevanti e prezzi comparativi per essere meno influenzati da un punto di partenza arbitrario. Un processo decisionale consapevole basato su dati e analisi validi può aiutare a ridurre al minimo l’impatto dell’euristica dell’ancoraggio. Vale anche il contrario, ad esempio, se si desidera raccogliere dati. Ad esempio, se stai progettando un sondaggio, dovresti essere consapevole che gli intervistati potrebbero essere influenzati dall’effetto di ancoraggio, che a sua volta potrebbe influire sulla validità del sondaggio. In questi casi, scegli i valori di ancoraggio con molta attenzione o, se possibile, non utilizzarli.
9. Il paradosso di Simpson:
Il paradosso di Simpson descrive un’illusione statistica in cui l’andamento dei dati complessivi avviene nella direzione opposta all’andamento dei singoli gruppi. Ciò significa che un’osservazione che appare in un’analisi complessiva può essere invertita quando i dati vengono suddivisi in diversi sottogruppi. Un esempio pratico potrebbe essere uno studio sul successo terapeutico di due diversi ospedali. Nell’analisi complessiva, un ospedale potrebbe avere un tasso di sopravvivenza più elevato. Tuttavia, quando i dati vengono suddivisi per gravità della malattia, si potrebbe riscontrare che l’altro ospedale ha un tasso di sopravvivenza più elevato a tutti i livelli di gravità.
Soluzione: per evitare il paradosso di Simpson, è importante prestare particolare attenzione alle possibili interazioni tra le variabili nelle analisi statistiche. È consigliabile esaminare più da vicino le differenze significative nei dati complessivi per vedere se queste differenze sono coerenti tra i sottogruppi. Un’analisi più approfondita considerando le diverse variabili e indagando le possibili interazioni tra loro può aiutare a riconoscere e comprendere il paradosso. Per dati molto complessi, è spesso consigliabile la collaborazione con statistici esperti o analisti di dati per garantire un’interpretazione accurata e affidabile dei risultati.
10. Errore ecologico:
L’errore ecologico si riferisce alla conclusione errata sulle caratteristiche individuali basata su dati aggregati e basati su gruppi. Questo bias si verifica quando le correlazioni statistiche a livello di gruppo vengono applicate agli individui senza tenere conto delle differenze individuali. Ad esempio, se consideriamo una città ricca in cui il reddito medio degli abitanti è molto alto, potremmo concludere che tutti gli abitanti della città sono ricchi. In realtà, è più probabile che anche in una città del genere vi siano notevoli differenze di reddito tra i singoli abitanti, per cui alcuni abitanti potrebbero essere molto ricchi, mentre altri potrebbero essere molto poveri.
Soluzione: per evitare l’errore ecologico, è importante distinguere tra caratteristiche aggregate e individuali quando si interpretano i dati. Le analisi dei dati dovrebbero quindi essere condotte non solo a livello di gruppo, ma anche a livello individuale per avere un’idea più precisa delle effettive differenze. Essere consapevoli che i dati aggregati non possono necessariamente essere trasferiti a esperienze o caratteristiche individuali, prestare attenzione al contesto dei dati e fare affidamento su fonti di dati e metodi di analisi appropriati per evitare di trarre conclusioni false.
11. Legge di Goodhart:
La legge di Goodhart, dal nome dell’economista britannico Charles Goodhart, afferma che una relazione statistica osservata trasformata in una regola perde il suo potere predittivo non appena viene utilizzata per il processo decisionale. In parole povere, ciò significa che quando un particolare rapporto o metrica viene utilizzato come base per premi o sanzioni, le persone o le organizzazioni sviluppano strategie per ottimizzare tale rapporto. Ciò porta spesso a effetti collaterali indesiderati. Ad esempio, se un’azienda utilizza i dati di vendita di un prodotto come indicatore di prestazione per il proprio personale di vendita e come base per un bonus, potrebbe tendere a utilizzare strategie di vendita a breve termine per ricevere il bonus. Potresti aver venduto molti prodotti, ma questa strategia potrebbe avere un effetto dannoso sulla tua azienda a lungo termine.
Soluzione: per prevenire la Legge di Goodhart, è importante sviluppare una valutazione olistica ed equilibrata delle prestazioni. Questo può essere fatto utilizzando più parametri di prestazione per valutare diversi aspetti della prestazione. È consigliabile considerare diverse angolazioni per valutare la performance complessiva di un individuo o di un’organizzazione. Inoltre, è importante rivedere e adeguare regolarmente i parametri e gli indicatori per garantire che continuino a fornire informazioni pertinenti e significative senza creare incentivi per comportamenti indesiderati. Una revisione critica dei parametri di prestazione utilizzati e del loro potenziale impatto sul comportamento può aiutare a ridurre al minimo gli effetti negativi della Legge di Goodhart.
12. fallacia del giocatore d’azzardo:
La fallacia del giocatore d’azzardo è un pregiudizio cognitivo in base al quale le persone credono che gli eventi casuali siano influenzati dai risultati o dalle frequenze precedenti. Si presume erroneamente che una certa serie di eventi, come una lunga serie di sconfitte nel gioco d’azzardo, debba portare a un futuro risultato positivo per ristabilire l’equilibrio. Un esempio semplice è l’ipotesi che, quando si lancia una moneta dopo una serie di lanci di testa, sia più probabile un lancio di croce. Dal punto di vista statistico, è probabile che il numero di lanci di testa e croce sia del 50% ciascuno nel lungo periodo. Tuttavia, ogni singolo lancio è indipendente da quello precedente e quindi ha una probabilità del 50% per ogni possibile risultato. La situazione è simile, ad esempio, nel settore delle vendite. Ad esempio, non si deve dare per scontato che un venditore abbia maggiori probabilità di vendere il vostro prodotto al prossimo incontro con il cliente se non ha avuto successo negli incontri precedenti. Infatti, statisticamente parlando, il venditore ha la stessa probabilità di vendita in ogni conversazione.
Soluzione: per evitare la fallacia del giocatore d’azzardo, è importante rendersi conto che gli eventi casuali non sono influenzati dai risultati precedenti. Statisticamente, le probabilità non cambiano in base ai risultati passati. Comprendere i principi di base della probabilità può aiutare a sviluppare aspettative realistiche e a superare la fallacia del giocatore d’azzardo.
13. Distorsione da regressione:
Si verifica una distorsione da regressione quando non tutte le variabili rilevanti vengono prese in considerazione nell’analisi dei dati, il che porta a una relazione errata tra le variabili. Ciò può portare a previsioni imprecise o a conclusioni errate. Ad esempio, uno studio che analizzasse la relazione tra consumo di cioccolato e aspettativa di vita senza prendere in considerazione fattori come la dieta, l’esercizio fisico o la predisposizione genetica non avrebbe senso. Se si analizzano solo il consumo di cioccolato e l’aspettativa di vita senza considerare gli altri fattori che influiscono, emerge un quadro distorto della realtà.
Soluzione: per evitare errori di regressione, è importante considerare tutte le variabili rilevanti che potrebbero influenzare la relazione tra le variabili analizzate durante l’analisi dei dati. Ciò richiede un’indagine preliminare approfondita e una profonda conoscenza dell’argomento per identificare potenziali fattori di influenza. L’uso di tecniche statistiche come la regressione multivariata può aiutare ad analizzare più variabili contemporaneamente e isolare i loro effetti individuali. Per analisi complesse, è anche utile consultare esperti e specialisti nel settore pertinente per garantire che tutte le variabili rilevanti siano prese in considerazione. Un’analisi attenta e completa dei dati che includa tutti i fattori influenti è fondamentale per ridurre al minimo il rischio di bias di regressione e ottenere risultati accurati.
14. Distorsioni del data mining:
La distorsione da data mining si riferisce a distorsioni nei risultati delle analisi dei dati che possono derivare dalla selezione o dall’interpretazione inappropriata dei dati. Può verificarsi, ad esempio, quando si effettuano analisi su grandi quantità di dati per identificare modelli, correlazioni o tendenze e alcuni gruppi vengono involontariamente favoriti o svantaggiati. Un esempio pratico potrebbe essere un algoritmo per la selezione delle domande di lavoro utilizzando dati storici che favoriscono o svantaggiano involontariamente i candidati di determinati gruppi a causa dei pregiudizi di genere o razziali esistenti.
Soluzione: per evitare errori di data mining, è importante prestare attenzione durante la selezione e l’interpretazione dei dati. Un’analisi approfondita dei dati dovrebbe garantire che tutti i fattori e i gruppi rilevanti siano adeguatamente rappresentati. Revisioni regolari delle analisi possono aiutare a identificare e correggere i bias in una fase iniziale. Dovrebbero essere sviluppate linee guida trasparenti ed etiche per l’uso dei dati per garantire che le analisi dei dati siano condotte in modo giusto ed equilibrato. Le misure di formazione e sensibilizzazione per gli analisti di dati e i decisori possono aiutare ad aumentare la consapevolezza dei bias del data mining e garantire che le analisi siano obiettive ed eque. Infine, è importante esaminare criticamente i risultati e cercare spiegazioni alternative per i modelli osservati per identificare e correggere possibili distorsioni.
15. Effetto della disposizione:
Il bias di disposizione è una distorsione cognitiva in cui le persone tendono ad attribuire risultati positivi alle proprie capacità e decisioni sagge, mentre attribuiscono risultati negativi a circostanze esterne o alla sfortuna. Ciò porta a uno squilibrio nella percezione di sé e può portare a decisioni irrazionali. Questo errore si riscontra spesso, ad esempio, sul mercato azionario: molti investitori vedono un profitto come il risultato di proprie analisi intelligenti, mentre le perdite attribuiscono a fluttuazioni imprevedibili del mercato.
Soluzione: come per la maggior parte degli altri errori relativi ai dati, il primo passo per evitare l’errore di disposizione è rendersi conto che esiste e può verificarsi in molte situazioni. L’autoriflessione sulle decisioni e la volontà di considerare i fallimenti come opportunità di apprendimento possono aiutare a mitigare l’errore di disposizione. È anche utile ottenere punti di vista esterni, attraverso revisioni tra pari, feedback di colleghi o consigli di esperti. Analizzare obiettivamente successi e fallimenti, tenendo conto di tutti i fattori rilevanti, può aiutare a sviluppare una percezione di sé più realistica e a prevenire decisioni irrazionali. La riflessione regolare e la consapevolezza dei propri schemi di pensiero sono fondamentali per riconoscere l’errore di disposizione e affrontarlo attivamente.
Conclusione
Fedeli al motto “una statistica affidabile è quella che hai manipolato personalmente”, dovresti anche essere consapevole che possono esserci molte insidie o ostacoli quando si analizzano i dati con la business intelligence. Non appena si viene a conoscenza dei vari errori nei dati, dalla selezione selettiva agli errori di disposizione, è possibile gestire in modo critico i risultati delle analisi e garantire così che vengano prese le giuste decisioni. Adottando un approccio trasparente e considerando diverse prospettive, metodi e tecniche di analisi, è possibile evitare errori nei dati.
Il software di business intelligence myPARM BIact offre una soluzione ottimale per superare queste sfide. Con la sua funzionalità avanzata di analisi dei dati, opzioni di reporting trasparenti e meccanismi integrati per la revisione dei dati, myPARM BIact consente un’analisi dei dati precisa e affidabile e fornisce quindi una solida base per i processi decisionali basati sui dati. Inoltre, myPARM BIact ti consente di tradurre immediatamente in azioni le decisioni che prendi.
Per saperne di più sul software di Business Intelligence myPARM BIact:
Volete provare myPARM BIact in una demo? Allora fissate subito un appuntamento con noi!