Inside Data Lake (Teil 5)

Datenprobleme? Davon hat mir niemand etwas gesagt!

So wie am See Entsetzen über die mageren Fische herrscht und der schläfrige Mitarbeiter erst von einem Angler an seine Aufgaben erinnert werden muss, so lösen sich auch im Data Lake die identifizierten Qualitätsprobleme nicht von allein. Die Zuordnung und Dokumentation von Data Ownership innerhalb eines Data Lake und die mit dieser Rolle verbundene Aufgabe, die Qualität der Daten mittels eines aussagekräftigen Kontrollnetzwerks regelmäßig zu überprüfen, sind wichtige Schritte, um Datenverantwortung zu „leben“. Allein die Erkenntnis über Datenmängel genügt jedoch noch nicht.

Die Identifikation von Datenmängeln ist nur der erste Schritt

Im Kontext von Kontrollen der Datenqualität (DQ) liegen häufig die Verantwortung für den Kontrollpunkt und die Verantwortung für die geprüften Dateninhalte in verschiedenen Händen. Dies gilt insbesondere, wenn das Erzeugerprinzip Anwendung findet und sich die Data Ownership für bestimmte Daten bei deren unveränderter Weitergabe in einer Lieferkette vererbt. Daher muss sichergestellt werden, dass die in einer bestimmten Anwendung oder Datenschicht identifizierten DQ-Auffälligkeiten auch den Weg zum richtigen Adressaten finden. Ein fehlender Regelprozess für die Adressierung und Analyse von DQ-Auffälligkeiten beziehungsweise die Bearbeitung von DQ-Befunden verhindert, dass existierende DQ-Mängel eskaliert werden. Eine fehlerhafte Adressierung von DQ-Auffälligkeiten führt dazu, dass diese nicht akzeptiert oder nicht verstanden und somit nicht adäquat bearbeitet werden.

DQ-Issue-Management zur lückenlosen Nachverfolgung von DQ-Mängeln

Um eine effiziente Bearbeitung von DQ-Auffälligkeiten zu gewährleisten, ist ein Regelprozess bestehend aus den folgenden wesentlichen Schritten erforderlich:

  • Zunächst sollten erkannte DQ-Auffälligkeiten verständlich dokumentiert werden. Wichtige Informationen sind dabei auch die Einschätzung der Kritikalität sowie der erforderliche Behebungszeitpunkt.
     
  • Das DQ-Issue kann jetzt an den Verantwortlichen der betroffenen Daten, den Data Owner, adressiert werden. Denn: Eine wesentliche Aufgabe des Data Owners ist auch die nachhaltige Bereinigung erkannter Datenmängel.
     
  • Wird die DQ-Auffälligkeit vom Empfänger akzeptiert und als DQ-Befund bearbeitet, so sollten alle zur Behebung erforderlichen Maßnahmen erfasst werden. Gegebenenfalls muss aus Budget- oder Ressourcengründen zusätzlich eine Priorisierung oder Genehmigung dieser Maßnahmen durch übergeordnete Gremien erfolgen.
     
  • Im letzten Bearbeitungsschritt wird die erfolgte Behebung des DQ-Befundes dokumentiert und das DQ-Issue geschlossen.

Bei der Zuordnung und Behebung von DQ-Mängeln stößt man in der Regel auf eine Vielzahl von Herausforderungen, die sich in einem Tool-gesteuerten Prozess zielgerichtet adressieren und effizient managen lassen. Mittels entsprechender Zugriffsrechte können hier Verantwortlichkeiten für Daten und Datenbereiche hinterlegt sowie „Tickets“ erfasst, zugeordnet und bearbeitet werden. Auch die Rückgabe bzw. Weiterleitung eines fehlerhaft adressierten DQ-Issues an den richtigen Empfänger kann so transparent durchgeführt werden. Reports zum Status der erfassten DQ-Auffälligkeiten, gegebenenfalls gefiltert nach Datenbereichen, werden aus einem solchen Tool ebenfalls leicht erstellt. Da mit dieser Lösung ein bereichsübergreifendes Handling von DQ-Mängeln möglich ist, sollte die Verantwortung für Tool und Prozesse an zentraler Stelle der Data Governance-Organisation angesiedelt werden.

14.10.2021