Inside Data Lake (Teil 8)

Datenhaushalte als Mehrgenerationenhaus der Daten

Im Anglerparadies befinden sich nicht nur junge Fische, sondern häufig auch ältere Generationen von Seebewohnern, die für die Petrijünger schon aufgrund ihrer Größe von Interesse sind. Und so spielen auch in Datenhaushalten neben den tagesaktuellen Daten ebenso historische Daten als wesentlicher Teil von Zeitreihen eine wichtige Rolle. Es sollte daher Sorge dafür getragen werden, dass benötigte Informationen - unter der Berücksichtigung von Kosten- und Nutzenaspekten - auch in ihrer zeitlichen Entwicklung verfügbar sind und nicht - wie unser alter großer Fisch im Bild - dem Anglerparadies einfach verloren gehen. In den Datenanforderungen der nutzenden Bereiche des Data Lake werden allerdings Details bezüglich des Aufbaus einer Datenhistorie oftmals nicht deutlich spezifiziert.

Eine neue Bedeutung für „alte“ Daten

Bereits in den etablierten DWH-Konzepten, die eine Grundlage für den Aufbau integrierter Finanzarchitekturen darstellen, wird die Historisierung der angelieferten Rohdaten sowie der transformierten Daten berücksichtigt. Wesentlicher Grund hierfür sind allerdings eher regulatorisch getriebene Anforderungen bezüglich einer (anlassbezogenen) Nachvollziehbarkeit vergangener Datensituationen/-konstellationen in den Reports der Unternehmenssteuerung. Die eigentliche Berichterstellung erfolgt - mittels geeigneter BI-Werkzeuge - auf Basis aktueller Daten und gegebenenfalls aggregierter historischer Daten. Eine gezielte, operative Nutzung der Daten zurückliegender Stichtage spielt hier eher eine untergeordnete Rolle. Die Historisierung der Daten folgt meist einfachen Festlegungen hinsichtlich der vorzuhaltenden Stichtage und des Housekeeping.

Sind historische Daten schon im DWH ein wichtiger Bestandteil, so ist deren Bereitstellung und Nutzung in Data Lake-Architekturen essenziell. Dies ist in der - im Vergleich zu einem DWH - erweiterten Nutzung eines Data Lake für Use Cases im Kontext von Advanced Analytics begründet. Werden historische Daten nicht verfügbar gemacht, so sind die Einsatzmöglichkeiten von Verfahren und Methoden aus den Bereichen Data Mining, Machine Learning, KI oder Predictive Analytics (Prognosen) stark limitiert. Denn mit diesen Methoden werden klassischerweise große Mengen Rohdaten oder fallweise aufbereiteter Daten analysiert, um Trends, Beziehungen, Muster oder Anomalien zu identifizieren und Aussagen bezüglich zukünftiger Entwicklungen vorherzusagen. Umfangreiche Zeitreihen der unterschiedlichen im Data Lake bereitgestellten Rohdaten bilden dabei genau die Grundlage für die Vorhersage von Kundenverhalten und Umsatzentwicklungen, daraus resultierenden Produktempfehlungen oder auch der Analyse des Wettbewerbs. Sie unterstützen somit die strategischen Entscheidungen auf Kunden- oder sogar auf Unternehmensebene.

Dadurch wird es besonders wichtig, Transparenz bezüglich der Art und Weise der Historisierung aller Daten zu schaffen. Erfolgt dies nicht und sind benötigte historische Daten für den Anwender in der Folge nicht (mehr) oder nur schwer verfügbar, so führt dies ebenso zu Nutzungseinschränkungen oder Kosten auf der Fachseite.

Der Metadaten-Layer auch als Info-Point für Historisierung

Da die Daten eines Data Lake - anders als in einem Data Warehouse - nicht in einer transformierten bzw. integrierten Form, sondern in ihrer angelieferten Rohform und daher sehr unstrukturiert vorliegen, werden für deren Historisierung sehr detaillierte Informationen benötigt, die üblicherweise nur in technischen IT-Spezifikationen enthalten sind. An dieser Stelle kann der Metadaten-Layer, also der Bereich des Data Lake, der erforderliche beschreibende Daten zu den operativen Daten enthält, genutzt werden. Für die hier bereitgestellten Informationen bezüglich der den Rohdaten zugrundeliegenden Datenstrukturen und -Formaten (Schema) sind - insbesondere bei strukturellen Änderungen der Rohdaten - entsprechende Zeitstempel erforderlich, um historische Daten verarbeiten zu können. Aber auch bezogen auf die operativen Daten selbst sind für die Datennutzer - neben Informationen zu Dateninhalten (Business Glossar), Data Ownership oder Datenqualität - datenspezifische Details zum

  • Historisierungskonzept (verfügbare Stichtage beziehungsweise Versionen)
  • Information Lifecycle Management (Aufbewahrung im Data Lake, Auslagerung/Archivierung, Löschung)
  • sonstigen Housekeeping (zum Beispiel Säubern von Daten, welche den Mindestanforderungen nicht genügen)

von großer Bedeutung.

Da es sich bei dem Metadaten-Layer eher um einen Servicebereich des Data Lake handelt und keine Einsicht in gegebenenfalls unternehmenskritische Daten erfolgt, können die Leserechte entsprechend weit gefasst werden.

20.01.2022