Inside Data Lake (Teil 2)

Keine Orientierung im Data Lake

Der Weg vom Aufbau direkt anwendungsgetriebener Datenhaushalte (z.B. eines Financial Data Warehouse) hin zur Bereitstellung breit gefächerter Data Lakes mit zusätzlichem potenziellem Nutzen bezüglich der Datenverwendung erfordert eine noch intensivere Beschäftigung mit dem Wissen über Art und Umfang der bereitgestellten Daten.

Welches Risiko birgt ein Data Lake?

Um die Objekte der Begierde an den Haken zu bekommen, brauchen die Nutzer eines Data Lake wie die Angler am See das Wissen über die Eigenschaften und Verhaltensweisen der «Fische».

Dies ist in einem großen komplexen Gebilde eines Data Lake mit unterschiedlichsten Nutzern ungleich schwieriger und vielschichtiger als an dem abgebildeten See. Zusätzlich sind die Folgen eines Fehlgriffs im Data Lake auch noch schwerwiegender:

  • Werden einerseits die gesuchten Daten nicht gefunden, obwohl sie vorhanden sind, so sinkt der Umfang der Verwendung des Data Lake und die Investition in selbigen bringt nicht den erwarteten Nutzen.
     
  • Werden andererseits Daten mangels Kenntnis ihrer Eigenschaften, Struktur oder Herkunft unsachgemäß verwendet, so besteht die Gefahr einer Datennutzung, die die Zielsetzung des Nutzers verfehlt und die unkorrekte Versorgung von fachlichen Methoden (Engines) verursacht. Dies kann schlimmstenfalls zu fehlerhaften steuerungsrelevanten Berichten und zu unternehmerischen Fehlentscheidungen führen.

Das Business Glossar als Kompass beim Daten-Angeln

Die Methode zur Vermeidung wiederum ist vergleichbar mit der an dem abgebildeten See. Ähnlich den Anglern an einem See benötigen auch die Nutzer eines Data Lake Transparenz bezüglich der Verfügbarkeit, Ausgestaltung und Lokalisierung der vorhandenen Daten. Hierfür sind übergreifend festgelegte und veröffentlichte eindeutige Definitionen auf Datenfeldebene eine Voraussetzung. Diese wird über die Einführung eines (mindestens) Data Lake-weit gültigen Business Glossars sichergestellt.

Die Erstellung und allgemeine Bereitstellung eines übergeordneten Business Glossars, bestehend aus systemunabhängigen und basierend auf einem einheitlichen Verständnis beschriebenen Geschäftsbegriffen bezogen auf die im Data Lake verfügbaren Daten, liefert die benötigte Transparenz. Strukturiert wird ein derartiges Business Glossar typischerweise durch ein übergeordnetes fachliches Datenmodell, das - ggfs. unter Zuhilfenahme bereits existierender dezentraler Datenmodelle (z.B. eines Financial Data Warehouse) – auf einer Metaebene entwickelt wird. Dabei werden die Geschäftsbegriffe im Sinne einer Datentaxonomie in Kategorien bzw. Unterkategorien eingeteilt und ggfs. in Beziehung gesetzt. Die im Data Lake in unterschiedlichen Schichten bzw. Datenbereichen vorliegenden, dezentralen Datenelemente (Attribute, Entitäten) werden dann zur besseren Lokalisierung durch die Datennutzer den fachlichen Definitionen des Business Glossars zugeordnet. Die Erzeugung des Business Glossars erfolgt idealerweise unter Verwendung eines entsprechenden Metadaten-Tools mit Import-Funktion für bereits bestehende Datenmodelle und manueller Anpassungsmöglichkeit an die jeweiligen Gegebenheiten der gewünschten Glossar-Struktur.

Neben der initialen Erstellung eines Glossars ist dessen Bereitstellung für alle Nutzer sowie die laufende Pflege und Aktualisierung der Glossar-Bestandteile sehr wichtig. Denn auch im See ermöglicht nur das klare und eindeutige Verständnis der Eigenschaften aller Fische zum Zeitpunkt des Angelns den gewünschten Fang.

08.07.2021