Inside Data Lake (Teil 3)

Breite Nutzung und hohe Akzeptanz – aber nur, wenn die Datenqualität nicht „verschwimmt”

Damit viele Angler angelockt werden, muss der Fischbestand in einem See für seine gute Qualität bekannt sein. So ist es bei einem Data Lake auch. Die bereitgestellten Daten sind nur dann wirklich wertvoll für potenzielle Abnehmer, wenn auch die Qualität dieser Daten den Anforderungen entspricht. Sowohl Reports zur internen bzw. externen Steuerung einer Bank als auch Kundenauswertungen zur Vertriebsunterstützung erfordern ein sehr hohes Maß an Verlässlichkeit der zu Grunde liegenden Datenbasis. Was bereits für anwendungsorientierte und daher eher maßgeschneiderte Data Warehouse-Systeme gilt, gilt erst recht auch für Data Lakes mit einem oftmals noch deutlich breiter angelegten Datenhaushalt, an dem sich ein weitaus größerer Nutzerkreis bedient.

Datenqualität? Wo stehen wir da eigentlich?

Ein Data Lake wird mit Daten gefüllt, die aus unterschiedlichen Quellen, Architekturen und Verantwortungsbereichen stammen. Selbst kleine Fehler oder Mängel in der Datenqualität (DQ) breiten sich bei dem großen Nutzerkreis eines Data Lakes stark aus. Werden Mängel an den gespeicherten Daten erst im Rahmen der Datenverwendung erkannt, so führt dies zu Nutzungseinschränkungen bis hin zur Nicht-Verwendbarkeit erstellter Berichte und in der Folge zu sinkender Akzeptanz des Data Lake durch die Datenabnehmer. Nachträgliche Bereinigungsprozesse belasten zusätzlich die Organisation. Der Data Lake wird so schnell zum Data Swamp.

Qualitative Einschätzungen der Daten basieren häufig auf mehr oder weniger zufälligen Beobachtungen. Eine systematische quantitative Überprüfung und Einschätzung der Datenqualität im Data Lake – sowohl der Quelldaten als auch der ermittelten Ergebnisdaten – ist allerdings ohne ein entsprechendes Instrumentarium nicht möglich.

DQ-Kontrollen zur Inspektion des Datenbestandes

Voraussetzung ist zunächst die Ergänzung der Datenanforderungen an den Data Lake um eine detaillierte Formulierung der zugehörigen erwarteten Qualitätsmerkmale. Diese können sowohl durch die Datenabnehmer als auch das Datenmanagement des Data Lake adressiert werden. Wesentliche DQ-Kriterien sind dabei die Vollständigkeit, Aktualität, Genauigkeit und Integrität der Daten. Die DQ-Anforderungen können fachlichen Charakter haben (z.B. fachliche Konsistenz, zeitliche Entwicklung) oder eher technisch geprägt sein (z.B. Datenformate, Pflichtfelder).

Im See wird kontrolliert, dass nur die köstlichen Speisefische und keine ungenießbaren Tiere oder gar Unrat in das Gewässer gegeben werden. Zudem erfolgt eine regelmäßige Überprüfung des Wachstums der Fische. Und so sind auch im Data Lake auf Basis der erhobenen DQ-Anforderungen an aussagekräftigen Stellen verschiedene DQ-Kontrollen zu verorten und im Rahmen der kontinuierlichen Bewirtschaftungsprozesse auszuführen. Schlägt eine DQ-Kontrolle an, liegt zunächst eine DQ-Auffälligkeit vor, die durch den Verantwortlichen der geprüften Daten (Data Owner) zu analysieren und zu bewerten ist. Wird der „Anfangsverdacht“ eines Qualitätsmangels bestätigt, so wandelt sich die DQ-Auffälligkeit in einen echten DQ-Befund, der bewertet, priorisiert und dann mittels geeigneter DQ-Maßnahmen behoben werden muss. Um eine umfassende Evidenz über die Güte der Daten im Data Lake zu erhalten, ist für die Datenabnehmer eine regelmäßige Berichterstattung bezüglich der DQ-Kontrollergebnisse in Form von DQ-Berichten oder DQ-Dashboards erforderlich.

12.08.2021