Gestione della qualità dei dati
Analisi accurate e decisioni corrette grazie a dati puliti
Il vantaggio della business intelligence dipende dalla qualità dei dati utilizzati. Le informazioni ottenute da dati non puliti sono imperfette. E le decisioni prese sulla base di tali dati possono portare a grossi problemi. Fedele al motto “immondizia dentro, spazzatura fuori”. L’elevata qualità dei dati è quindi un fattore di successo decisivo per le aziende. Tuttavia, sebbene l’importanza della qualità dei dati sia ben nota nella maggior parte delle aziende, in molte aziende i dati sono ancora imperfetti.
Cos’è la qualità dei dati e la gestione della qualità dei dati?
La qualità dei dati è un termine soggettivo che deve essere definito individualmente per ciascuna azienda. Sono le caratteristiche generali di un set di dati che soddisfano i requisiti degli utenti.
La gestione della qualità dei dati si riferisce a tutti i processi e le procedure che si occupano di garantire un’elevata qualità dei dati. Ciò include l’identificazione, la pulizia e la fornitura dei dati.
Le ragioni principali della scarsa qualità dei dati
I dati non sono mai puliti e perfetti al 100%. Ciò potrebbe essere dovuto al fatto che i dati entrano in un’azienda in modi diversi. Di conseguenza, può essere obsoleto, duplicato o incoerente. Per garantire la massima qualità dei dati possibile, è utile conoscere i motivi principali dei dati errati. In questo modo puoi evitare in anticipo dati di scarsa qualità. Questi sono i motivi più importanti:
- Inserimento manuale dei dati: in molte aziende avviene l’inserimento manuale dei dati. Tuttavia, questo è molto soggetto a errori. I dati possono essere inseriti nel posto sbagliato o nel formato sbagliato e può facilmente verificarsi un errore di battitura o di numero.
- Conversione dei dati: durante il trasferimento dei dati da una posizione a un’altra, i dati possono essere persi o modificati accidentalmente. Ciò potrebbe accadere perché i dati sono archiviati in formati diversi o la struttura dei dati è diversa.
- Aggiornamenti in tempo reale: per prendere buone decisioni è importante lavorare sempre con dati aggiornati. Ma anche in questo caso possono verificarsi errori se i singoli set di dati non sono stati aggiornati al momento dell’analisi o perché non c’è stato abbastanza tempo per rivedere i dati.
- Unione di dati: se è necessario unire dati, ad esempio in caso di consolidamenti, fusioni aziendali o modifiche di sistema, possono verificarsi anche errori come formati non validi, duplicati e conflitti.
- Aggiornamenti del sistema: Anche aggiornamenti frequenti o upgrade del vostro software possono portare a errori, poiché è possibile che i dati vengano cancellati o danneggiati durante il processo.
- Raccolta dati indiscriminata: le aziende spesso raccolgono tutti i dati generati. Ciò ha un certo potenziale, poiché i dati potrebbero essere necessari in futuro. Tuttavia, ciò rende anche più difficile il controllo della qualità e l’analisi dei dati. Pertanto, se possibile, dovrebbero essere archiviati solo i dati realmente necessari.
Quali sono i criteri per la qualità dei dati? I criteri
Diversi criteri mostrano quanto è alta la qualità dei tuoi dati e se i dati sono adatti per un determinato compito.
- Completezza: tutti i set di dati necessari sono completi?
I dati incompleti potrebbero non essere utilizzabili o utilizzabili solo parzialmente. Pertanto, è importante garantire che un set di dati contenga tutti gli attributi necessari e che gli attributi a loro volta contengano tutti i dati necessari. - Pertinenza: sono disponibili tutti i dati necessari per gli scopi previsti?
Non tutti i dati generati sono rilevanti per i tuoi scopi. Pertanto, dovrebbero essere raccolti deliberatamente in modo che vengano raccolti solo i dati necessari. Ciò è particolarmente vero per i dati dei clienti, che sono soggetti alla riservatezza dei dati. - Accuratezza: i dati raccolti sono accurati e dichiarati secondo necessità?
Quando si raccolgono dati, è importante assicurarsi che i dati siano accurati. Allo stesso tempo, dovrebbe anche raggiungere il livello di dettaglio richiesto. Ciò significa, ad esempio, che devono essere memorizzate tutte le cifre decimali necessarie. - Tempestività: i dati sono aggiornati?
In un’azienda vengono costantemente creati nuovi dati. Pertanto, è opportuno effettuare sempre analisi con dati aggiornati per individuare tempestivamente cambiamenti o problemi. In pratica, spesso raccomandiamo ai nostri clienti di fare riferimento a dati con uno stato affidabile quando prendono decisioni. A seconda della situazione può essere opportuno utilizzare, ad esempio, i dati del giorno precedente, poiché i dati in tempo reale possono cambiare in brevissimo tempo. - Validità: l’origine dei dati è affidabile o i dati provengono da fonti affidabili?
L’origine dei set di dati dovrebbe essere tracciabile per valutare se i dati sono affidabili. - Disponibilità e accessibilità: gli utenti possono accedere facilmente ai dati di cui hanno bisogno? È disponibile nel formato richiesto?
Ad esempio, se i dati rilevanti sono distribuiti su diversi strumenti o non sono nel formato corretto, non sempre è garantita una facile accessibilità. - Coerenza: ci sono contraddizioni o duplicati nei dati? Ci sono incongruenze con altri dati?
I dati devono essere inequivocabili, senza contraddizioni con se stessi o con altri dati e senza ridondanze, nonché strutturati in modo uniforme.
Cosa si può fare per garantire un’elevata qualità dei dati?
Affinché i dati siano di qualità costantemente elevata, è prima necessario definire come misurarne la qualità. Quindi i dati dovrebbero essere analizzati, ripuliti e monitorati rispetto ai criteri definiti. Questo processo dovrebbe essere eseguito regolarmente per mantenere una qualità dei dati costantemente elevata ed essere in grado di eliminare permanentemente le fonti di errore.
1. Definire i criteri
Il primo passo è determinare quali criteri dovrebbero essere utilizzati per misurare la qualità dei dati. Ad esempio, viene definito quali dati devono essere disponibili per i tuoi scopi e in quale formato devono essere disponibili.
2. Profilazione/analisi dei dati:
L’analisi dei dati viene utilizzata per identificare dati duplicati, contraddizioni, errori e serie di informazioni incomplete. In questo modo è possibile misurare la qualità dei dati e pulirli e aggiornarli in fasi successive. Inoltre, l’analisi dei dati può essere utilizzata per identificare le fonti di errore e quindi adottare misure per garantire che gli errori rilevati non si ripetano in futuro.
3. Pulizia dei dati
Nella fase di pulizia dei dati, i problemi identificati nell’analisi dei dati vengono corretti. Ciò significa che i duplicati vengono eliminati, i dati incompleti vengono aggiunti o le contraddizioni vengono corrette.
4. Monitoraggio dei dati:
I dati esistenti e quelli nuovi dovrebbero essere controllati continuamente per garantire un’elevata qualità dei dati su base permanente.
Suggerimenti per la gestione della qualità dei dati
1. Determinare le persone responsabili
Senza qualcuno che si assuma la responsabilità della qualità dei dati, nessuno potrebbe sentirsi responsabile. Pertanto, è importante definire le persone responsabili. A seconda del set di dati possono trattarsi di persone diverse, ma anche di un singolo dipendente. Le persone responsabili hanno il compito di garantire che gli standard definiti siano rispettati durante la creazione dei dati e che i dati vengano regolarmente controllati e mantenuti.
2. Affrontare le carenze di qualità
Non esiste una qualità dei dati al 100%, poiché gli errori possono verificarsi in qualsiasi momento. Tuttavia, a seconda dello scopo dell’applicazione, è possibile determinare quali dati devono essere assolutamente corretti per poter effettuare analisi corrette e quindi prendere decisioni corrette.
Il nostro consiglio: è importante che il maggior numero possibile di set di dati siano corretti. Tuttavia, il rapporto costi-benefici delle correzioni può essere scarso, ad esempio se la pulizia dei dati richiede molto tempo, ma i dati vengono utilizzati poco dopo o non hanno alcuna rilevanza. Pertanto, dare priorità alla risoluzione delle carenze qualitative nei dati essenziali.
3. Migliorare la qualità dei dati direttamente alla fonte
Le soluzioni di business intelligence come myPARM BIact consentono di modificare, correggere o aggiungere manualmente i dati archiviati. Tuttavia è necessario tenere presente che quando si apportano tali correzioni, da un lato la fonte dei dati è ancora difettosa e dall’altro anche le correzioni manuali hanno un elevato potenziale di errore. Inoltre, è possibile che gli errori esistenti vengano trascurati. Pertanto, se possibile, la qualità dei dati dovrebbe essere migliorata alla fonte dei dati. In questo modo, i dati di alta qualità vengono messi a disposizione del software BI.
4. Monitoraggio continuo dei dati
Quanto più spesso rileverai errori, li correggerai e prenderai misure per contrastarli, tanto migliore sarà la qualità dei tuoi dati in futuro. Tuttavia, è importante considerare la qualità dei dati come un processo iterativo, poiché nuovi errori possono verificarsi in qualsiasi momento, i requisiti per i dati possono cambiare o la quantità di dati creati e la loro diversità possono aumentare. Il processo di gestione della qualità dei dati dovrebbe pertanto essere continuo.
Conclusione
Prendere decisioni basate sui dati anziché sull’istinto può contribuire molto al successo della tua azienda. Tuttavia, ciò comporta il rischio che i dati che hanno portato a una decisione possano essere errati. Per questo motivo è importante che una buona gestione della qualità dei dati garantisca di poter sempre fare affidamento sulla loro accuratezza.
Per saperne di più sul software di Business Intelligence myPARM BIact:
Volete provare myPARM BIact in una demo? Allora fissate subito un appuntamento con noi!