Data Warehouse und Data Lake
Definition, Gemeinsamkeiten und Unterschiede
Die Menge an gesammelten Daten in Unternehmen steigt ständig und damit auch das Bedürfnis, diese Daten optimal zu verwalten und für Analysen zu nutzen. Data Warehouses und Data Lakes sind etablierte Lösungen, um grosse Datenmengen zu speichern. Wir erklären die wichtigsten Unterschiede zwischen den beiden Möglichkeiten.
Was ist ein Data Warehouse?
Der Begriff Data Warehouse bezeichnet eine zentrale Sammlung von Daten, meist innerhalb einer Business Intelligence Lösung. Hier kann eine grosse Menge an Daten aus unterschiedlichen Quellen gesammelt und gespeichert werden. Das Data Warehouse extrahiert dafür regelmässig Daten aus verschiedenen Systemen, die dann validiert, bereinigt, formatiert und mit bereits vorhandenen Informationen abgeglichen werden. Es findet also ein sogenannter ETL-Prozess (Extract, Transform, Load) statt. Dafür wird zunächst die Struktur der Daten, das sogenannte Schema, festgelegt. Diese Vorgehensweise nennt sich Schema on Write und bestimmt, wie konsolidierte Daten aussehen. Da Daten meist tabellarisch erfasst werden, beantwortet das Schema also Fragen wie:
- Wie sieht eine Zeile in einer Tabelle aus?
- Welche Attribute beinhaltet jede Zeile?
- Welche Daten werden erwartet?
Die daraus resultierenden verarbeiteten Daten werden so gespeichert, dass Nutzer jederzeit darauf zugreifen können.
Vorteile eines Data Warehouse
- Einfache Analyse: Da die Daten in einem Data Warehouse in einem konsistenten Format vorliegen, können sie leicht in einem BI-System analysiert und daher zur Entscheidungsfindung genutzt werden. Auch Anwender ohne datentechnisches Wissen können so aus den vorliegenden Daten wichtige Erkenntnisse ziehen.
- Zusammenführen von Daten: Da in einem Data Warehouse Informationen aus verschiedenen Datenbanken gesammelt werden, können die Daten aus verschiedenen Quellen einfach miteinander in Beziehung gesetzt oder auf Zusammenhänge untersucht werden.
- Datenqualität: Da die Daten vor dem Speichern validiert und formatiert werden, enthält das Data Warehouse ausschliesslich konsistente und relevante Daten. Die Qualität der zur Verfügung stehenden Daten ist also sehr hoch.
Nachteile eines Data Warehouse
- Fehlende Daten: In einem Data Warehouse werden nur die Daten gespeichert, die für den ursprünglich vorgesehenen Zweck benötigt wurden. Werden zusätzliche Daten benötigt, müssen diese dem Data Warehouse umständlich hinzugefügt werden.
- Geringere Flexibilität: Hat sich der Zweck des Data Warehouse geändert oder werden zukünftig weitere Daten benötigt, muss das Data Warehouse angepasst werden. Das liegt daran, dass das Datenmodell, bzw. die Struktur vorab festgelegt wurde (Schema on Write). Dies zu ändern kann zeitaufwändig und kostspielig sein. Ein Data Warehouse ist also weniger flexibel für neue Datenquellen.
- Hohe Startkosten: Da vor dem Start mit einem Data Warehouse das Schema on Write definiert werden muss, entstehen zunächst höhere Kosten.
Was ist ein Data Lake?
Mit einem Data Lake ist ein zentrales Repository gemeint, in dem grosse Datenmengen aus verschiedenen Quellen meist im Rohformat gespeichert werden. Es können allerdings auch strukturierte oder semistrukturierte Daten abgelegt werden. Während in einem Data Warehouse also ausschliesslich strukturierte Daten abgelegt werden, können Data Lakes Informationen in verschiedenen Formaten abspeichern und sie auf diese Weise den Anwendern zur Verfügung stellen. Dabei wird das Datenmodell erst beim Auslesen der Inhalte genau erfasst (Schema on read), was fehlerträchtig sein kann. Hier findet also ein ELT-Prozess (Extract, Load, Transform) statt.
Vorteile eines Data Lake
- Zugänglichkeit: Unternehmensdaten werden im Data Lake zentral gespeichert und sind auf diese Weise für alle Nutzer einfach abrufbar.
- Vermeidung von Datensilos: Es werden sowohl strukturierte als auch semistrukturierte oder unstrukturierte Daten abgespeichert. Dadurch werden Datensilos vermieden.
- Grosse Flexibilität: Daten können verändert und geformt werden, sodass sie für unterschiedliche Zwecke analysiert werden können. Zusätzliche Datenquellen können einfach und ohne grosse Änderungen am Data Lake hinzugefügt werden.
- Maschinelles Lernen: Die gespeicherten Daten eignen sich ideal für maschinelles Lernen.
Nachteile eines Data Lake
- Speicherkapazität: Da alle Daten ungefiltert abgespeichert werden, ist ein grösserer Speicher nötig als beim Data Warehouse
- Datenqualität: Ohne Massnahmen für Datenqualität und Data Governance können die abgespeicherten Daten schnell zu einem sogenannten Data Swamp werden. Ein Data Swamp ist ein ungepflegter Data Lake, in dem Daten ohne entsprechende Dokumentation gespeichert werden, sodass man schnell den Überblick verliert.
Gemeinsamkeiten und Unterschiede
Sowohl Data Warehouses als auch Data Lakes sind für Geschäftsanalysen konzipiert und dienen als zentraler Datenspeicher im Unternehmen. Da Ihr Einsatzzweck und die Ziele sich ähneln ist es leicht, beide Technologien zu verwechseln. Die wichtigsten Unterschiede sind:
Data Warehouse | Data Lake | |
Datenstruktur | Strukturierte, verarbeitete Daten | Strukturierte und semistrukturierte Daten, aber vor allem Rohdaten |
Zweck der Datenspeicherung | Definiert, daher geringere Datenmenge | Nicht festgelegt, daher grössere Datenmenge |
Nutzer | Unterschiedliche Anwender, meist ohne datentechnisches Wissen | Data Scientists oder spezielle Tools notwendig, um die Daten für andere Anwender zu übersetzen |
Zugänglichkeit | Änderungen kompliziert und kostspieliger | Daten leicht zugänglich, schnell und einfach zu aktualisieren |
Schema | Schema on Write: Schema wird definiert, bevor Daten gespeichert werden | Schema on Read: Schema wird definiert, wenn Daten gelesen werden |
So treffen Sie die richtige Wahl
Ob ein Data Warehouse oder ein Data Lake für Sie die bessere Wahl ist, hängt von verschiedenen Faktoren ab, die bereits durch die Unterschiede der beiden Technologien klar werden. Fragen Sie sich daher:
- Sollen strukturierte Daten oder Rohdaten gespeichert werden?
- Sollen die Daten einem bestimmten Zweck dienen?
- Wer wird die Daten nutzen?
- Wie gross ist die Wahrscheinlichkeit, dass sich die Auswertungsanforderungen ändern?
Die Zukunft: Das Data Lakehouse
Oftmals können Unternehmen keine klare Entscheidung treffen, ob sie ein Data Warehouse oder einen Data Lake benötigen. Vielmehr brauchen Sie beides – einen Data Lake, um von Rohdaten zu profitieren, aber auch ein Data Warehouse, um allen Geschäftsanwendern Analysen zu ermöglichen. Die beiden Technologien gleichzeitig zu betreiben hat aber den Nachteil, dass die Daten an zwei oder mehr Orten gespeichert werden, also auch an verschiedenen Stellen analysiert, gepflegt und überwacht werden müssen. Das wiederum kann zu Fehlern oder nicht aktuellen Daten führen.
Ein Data Lakehouse verbindet die Flexibilität von Data Lakes mit den strukturgebenden Prozessen von einem Data Warehouse und verspricht so das beste beider Technologien. Auf diese Weise sollen beispielsweise auch unstrukturierte Daten in einem BI-System analysiert werden können.
Fazit
Data Warehouses und Data Lakes sind für Geschäftsanalysen konzipiert. Sie haben ihre Vor- und Nachteile, können sich allerdings auch ergänzen. Welche Lösung für die Verwaltung Ihrer Unternehmensdaten besser geeignet ist, hängt von Ihren Bedürfnissen und verschiedenen Bedingungen ab.
Die Business Intelligence Software myPARM BIact basiert grundsätzlich auf einem Data Warehouse. Dadurch wird es auch für Mitarbeitende ohne datentechnisches Wissen möglich, die gespeicherten Daten zu analysieren, Berichte sowie Diagramme zu erstellen und wichtige Erkenntnisse aus den Daten zu gewinnen.
Es ist in myPARM BIact jedoch auch möglich semistrukturierte Daten anzubinden und auszuwerten. Dies erfordert aber höhere Kenntnisse betreffend Aufbau der Datenmodelle für das Auswerten solcher Daten. Das heisst, allenfalls ist das Knowhow eines Data Scientists erforderlich.
Weitere Informationen über die Business Intelligence Software myPARM BIact:
Möchten Sie myPARM BIact in einer Demonstration kennenlernen? Dann vereinbaren Sie gleich einen Termin!