Data Quality Management
Treffende Analysen und korrekte Entscheidungen dank sauberer Daten
Der Nutzen von Business Intelligence steht und fällt mit der Qualität der verwendeten Daten. Erkenntnisse, die aus unsauberen Daten gewonnen werden, sind fehlerhaft. Und Entscheidungen, die aufgrund einer solchen Basis getroffen werden, können grosse Probleme nach sich ziehen. Ganz nach dem Motto „garbage in, garbage out.“ Eine hohe Datenqualität ist also ein entscheidender Erfolgsfaktor für Unternehmen. Doch obwohl die Wichtigkeit der Datenqualität in den meisten Unternehmen bekannt ist, sind die Daten in vielen Unternehmen noch mangelhaft.
Was ist Datenqualität und Datenqualitätsmanagement?
Datenqualität ist ein subjektiver Begriff, der für jedes Unternehmen individuell definiert werden muss. Es handelt sich dabei um die gesamten Eigenschaften eines Datenbestandes, mit denen die Anforderungen der Anwender erfüllt werden.
Data Quality Management bezeichnet alle Prozesse und Vorgänge, die sich damit beschäftigen, eine hohe Datenqualität sicher zu stellen. Das beinhaltet das Identifizieren, Bereinigen und zur Verfügung stellen von Daten.
Die Hauptgründe für schlechte Datenqualität
Daten sind nie zu 100 Prozent sauber und perfekt. Das kann daran liegen, dass die Daten auf unterschiedlichen Wegen in ein Unternehmen kommen. Dadurch können sie veraltet, doppelt oder inkonsistent sein. Um für eine möglichst hohe Datenqualität zu sorgen hilft es, wenn Sie die wichtigsten Gründe für fehlerhafte Daten kennen. Auf diese Weise können Sie eine schlechte Qualität der Daten im Vorhinein vermeiden. Dies sind die wichtigsten Gründe:
- Manuelle Dateneingabe: In vielen Unternehmen finden manuelle Dateneingaben statt. Dies ist jedoch sehr fehlerträchtig. Daten können an falscher Stelle oder im falschen Format eingetragen werden und ein Tippfehler oder Zahlendreher ist schnell passiert.
- Datenkonvertierung: Bei der Übertragung von Daten von einem Speicherort zum nächsten können Daten versehentlich verloren gehen oder verändert werden. Das kann z. B. daran liegen, dass die Daten in unterschiedlichen Formaten gespeichert werden oder die Datenstruktur anders ist.
- Echtzeit-Updates: Um gute Entscheidungen treffen zu können ist es wichtig, jederzeit mit aktuellen Daten zu arbeiten. Aber auch hierbei kann es zu Fehlern kommen, wenn einzelne Datensätze zum Zeitpunkt einer Analyse eventuell noch nicht aktualisiert wurden oder weil es noch nicht genug Zeit für eine Überprüfung der Daten gab.
- Zusammenführung von Daten: Müssen Daten zusammengeführt werden, beispielsweise bei Konsolidierungen, Firmenzusammenschlüssen oder Systemänderungen, kann es ebenfalls zu Fehlern wie ungültigen Formaten, Duplikaten und Konflikten kommen.
- Systemupgrades: Häufige Updates oder Upgrades Ihrer Software können ebenfalls zu Fehlern führen, da es möglich ist, dass hierbei Daten gelöscht oder beschädigt werden.
- Wahllose Datenerfassung: Oftmals werden von Unternehmen alle Daten gesammelt, die entstehen. Das birgt ein gewisses Potenzial, da die Daten unter Umständen in Zukunft benötigt werden könnten. Allerdings macht es auch die Qualitätssicherung und Datenanalyse schwerer. Daher sollten möglichst nur die Daten gespeichert werden, die auch wirklich benötigt werden.
Woran lässt sich Datenqualität festmachen? Die Kriterien
Verschiedene Kriterien zeigen Ihnen, wie hoch die Qualität Ihrer Daten ist und ob die Daten sich für eine bestimmte Aufgabe eignen.
- Vollständigkeit: Sind alle Datensätze, die benötigt werden, vollständig?
Unvollständige Daten sind möglicherweise nicht oder nur teilweise nutzbar. Daher muss sichergestellt werden, dass ein Datensatz alle notwendigen Attribute enthält und die Attribute wiederum alle notwendigen Daten enthalten. - Relevanz: Sind alle für die geplanten Zwecke benötigten Daten verfügbar?
Nicht alle Daten, die anfallen, sind für Ihre Zwecke relevant. Daher sollten sie bewusst erhoben werden, sodass nur so viele Daten wie nötig erfasst werden. Dies gilt insbesondere für Kundendaten, die dem Datenschutz unterliegen. - Genauigkeit: Sind die erfassten Daten korrekt und so angegeben, wie benötigt?
Wenn Sie Daten erheben, ist es wichtig darauf zu achten, dass die Daten korrekt sind. Gleichzeitig sollten sie auch in dem benötigten Detaillierungsgrad vorliegen. Das bedeutet, dass beispielsweise alle nötigen Nachkommastellen gespeichert sein sollten. - Aktualität: Sind die Datensätze auf dem neuesten Stand?
In einem Unternehmen entstehen ständig neue Daten. Daher ist es sinnvoll, Analysen stets mit aktuellen Daten durchzuführen, um Veränderungen oder Probleme frühzeitig zu erkennen. In der Praxis empfehlen wir unseren Kunden oftmals, sich bei Entscheidungsfindungen auf Daten mit einem verlässlichen Stand zu beziehen. Je nach Situation kann es so beispielsweise sinnvoll sein, die Daten des Vortages zu verwenden, da Live-Daten sich innerhalb kürzester Zeit ändern können. - Validität: Ist die Entstehung der Daten zuverlässig, bzw. kommen die Daten aus zuverlässigen Quellen?
Die Entstehung der Datensätze sollte nachvollziehbar sein, um zu beurteilen, ob die Daten zuverlässig sind. - Verfügbarkeit und Zugänglichkeit: Können die Nutzer auf die benötigten Daten einfach zugreifen? Liegen sie in dem benötigten Format vor?
Sind relevante Daten beispielsweise über verschiedene Tools verteilt oder liegen nicht im richtigen Format vor, ist eine einfache Zugänglichkeit nicht immer gegeben. - Konsistenz: Gibt es in den Daten Widersprüche oder Dubletten? Liegen Unstimmigkeiten zu anderen Daten vor?
Daten müssen eindeutig, ohne Widersprüche zu sich selbst oder anderen Daten und ohne Redundanzen, sowie einheitlich strukturiert sein.
Was kann man tun, um eine hohe Datenqualität zu gewährleisten?
Damit die Daten konstant eine hohe Qualität haben, muss zunächst festgelegt werden, wie ihre Qualität gemessen werden kann. Anschliessend sollten die Daten anhand der definierten Kriterien analysiert, bereinigt und überwacht werden. Dieser Prozess sollte regelmässig durchlaufen werden, um eine konstant hohe Datenqualität zu erhalten und um Fehlerquellen dauerhaft beseitigen zu können.
1. Kriterien definieren
Im ersten Schritt wird ermittelt, welche Kriterien herangezogen werden sollen, um die Qualität der Daten zu messen. So wird beispielsweise definiert, welche Daten für Ihre Zwecke vorhanden sein müssen und in welchem Format sie vorliegen sollen.
2. Data Profiling / Datenanalyse:
Die Datenanalyse dient dazu, doppelte Daten, Widersprüche, Fehler und unvollständige Informationen zu erkennen. Auf diese Weise kann die Qualität der Daten gemessen werden sowie in weiteren Schritten die Daten bereinigt und aktualisiert werden. Zudem kann die Datenanalyse dazu genutzt werden, Fehlerquellen zu identifizieren und so Massnahmen zu ergreifen, die sicherstellen, dass die erkannten Fehler in Zukunft nicht mehr passieren.
3. Data Cleaning / Datenbereinigung:
Im Schritt Datenbereinigung werden die in der Datenanalyse erkannten Probleme behoben. D.h. Dubletten werden gelöscht, unvollständige Daten ergänzt oder Widersprüche korrigiert.
4. Data Monitoring / Datenüberwachung:
Die vorhandenen und neuen Daten sollten kontinuierlich überprüft werden, damit eine hohe Datenqualität dauerhaft gewährleistet wird.
Tipps zum Data Quality Management
1. Verantwortliche festlegen
Ohne jemanden, der die Verantwortung für die Datenqualität übernimmt, fühlt sich unter Umständen niemand dafür zuständig. Daher ist es wichtig, Verantwortliche festzulegen. Je nach Datensatz können dies unterschiedliche Personen, aber auch ein einzelner Mitarbeitender sein. Die Verantwortlichen sind dafür zuständig, darauf zu achten, dass beim Anlegen der Daten die definierten Standards eingehalten werden sowie die Daten regelmässig überprüft und gepflegt werden.
2. Umgang mit Qualitätsmängeln
Es gibt keine 100prozentige Datenqualität, da jederzeit Fehler passieren können. Je nach Anwendungszweck kann aber festgestellt werden, welche Daten unbedingt richtig sein müssen, um korrekte Analysen ausführen zu können und somit richtige Entscheidungen zu treffen.
Unser Tipp: Zwar ist es wichtig, dass möglichst viele Datensätze korrekt sind. Allerdings kann das Verhältnis von Kosten und Nutzen der Korrekturen schlecht sein, beispielsweise wenn die Bereinigung der Daten viel Zeit in Anspruch nimmt, Sie die Daten im Nachhinein aber wenig nutzen oder sie keine Relevanz haben. Kümmern Sie sich daher vorrangig um Qualitätsmängel der essenziellen Daten.
3. Datenqualität direkt an der Quelle verbessern
Business Intelligence Lösungen wie myPARM BIact bieten Ihnen die Möglichkeit, gespeicherte Daten manuell zu ändern, zu korrigieren oder zu ergänzen. Allerdings sollten Sie bedenken, dass bei solchen Korrekturen einerseits die Datenquelle noch immer fehlerhaft ist und andererseits manuelle Korrekturen ebenfalls ein hohes Fehlerpotenzial haben. Zudem könnte es sein, dass bestehende Fehler übersehen werden. Daher sollte die Qualität der Daten möglichst schon an der Datenquelle verbessert werden. So werden der BI-Software hochqualitative Daten zur Verfügung gestellt.
4. Kontinuierliches Data Monitoring
Je häufiger Sie Fehler erkennen, korrigieren und Massnahmen dagegen ergreifen, umso höher wird die Qualität Ihrer Daten in Zukunft sein. Dennoch ist es wichtig, die Datenqualität als einen iterativen Prozess anzusehen, da jederzeit neue Fehler entstehen können, die Anforderungen an die Daten sich ändern oder die entstehende Datenmenge und ihre Vielfältigkeit zunimmt. Der Prozess des Data Quality Managements sollte also kontinuierlich durchlaufen werden.
Fazit
Entscheidungen auf Daten basiert zu treffen statt aus dem Bauchgefühlt heraus, kann viel zum Erfolg Ihres Unternehmens beitragen. Damit einher geht aber die Gefahr, dass die Daten, die zu einer Entscheidung geführt haben, fehlerhaft sein können. Aus diesem Grund ist es wichtig, dass ein gutes Datenqualitätsmanagement sicherstellt, dass Sie sich jederzeit auf die Richtigkeit Ihrer Daten verlassen können.
Weitere Informationen über die Business Intelligence Software myPARM BIact:
Möchten Sie myPARM BIact in einer Demonstration kennenlernen? Dann vereinbaren Sie gleich einen Termin!