Inside Data Lake (Teil 6)

Promenadenmischungen im Data Lake

Kreuzen sich im See unterschiedliche Fischarten, so führt dies manchmal zu merkwürdigen evolutionären Ergebnissen. Das Gleiche gilt auch für die Daten im Data Lake. Führt man Daten zusammen, die unterschiedlichen Arten bzw. fachlichen Taxonomien angehören, so entstehen unerwartete, unverständliche und schlimmstenfalls inkonsistente Aggregate.

Inkonsistenzen durch unsachgemäße Zusammenfassung von Daten

Die Aggregation von Daten über dezentrale Datenbereiche hinweg birgt Risiken bezüglich ihrer inhaltlichen Vereinbarkeit.

Einfache Beispiele von Fehlern bei der Zusammenführung von Daten sind die Verwendung unterschiedlicher Zeitpunkte oder die Vermischung unterschiedlicher Währungen. Auch nutzen verschiedene Bereiche manchmal unterschiedliche fachliche Begrifflichkeiten, die als Basis für die Ermittlung von Kennzahlen dienen. So unterscheidet sich der Exposure-Begriff im Bereich Finance in der Regel von der Definition im Bereich Risikosteuerung und die Bewertung von Geschäften folgt in diesen Bereichen abweichenden Systematiken. Führt man diese Größen dann zusammen oder verwendet sie gemeinsam zur Ermittlung weiterer Kennzahlen, sind die Ergebnisse oft schwer interpretier- und abstimmbar.

Wird beispielsweise die Kennzahl der Abdeckungsquote (Abdeckungsquote = (Risikovorsorge + Sicherheiten) / Gesamtexposure) unter der Verwendung unterschiedlicher Exposure-Begriffe generiert – Zähler gemäß Finance-Sicht und Nenner gemäß Risiko-Sicht – so erfolgt eben nicht die erforderliche Gegenüberstellung konsistent ermittelter Kennzahlen.

Die Verwendung fachlich nicht einheitlich entstandener Werte im Rahmen von Aggregationen führt somit zu

  • bedingter Aussagekraft und Interpretierbarkeit von Kennzahlen,
  • inkonsistenten Steuerungsinformationen durch die Gegenüberstellung von Kennzahlen, die auf Basis verschiedener fachlicher Grundlagen ermittelt wurden sowie
  • erhöhtem Abstimmungsaufwand mit Reports, die auf der Basis von Daten eines einzigen Datenbereichs ermittelt wurden.

Die Lösung bieten die Elemente der Data Governance in ihrem Zusammenspiel

Kennzahlen lassen sich belastbar interpretieren, wenn ihre Entstehung durchgängig transparent und lückenlos nachvollziehbar ist. Auch ist eine hinreichende und effiziente fachliche Qualitätssicherung nur möglich, wenn alle über die Aggregationskette verwendeten Daten, Definitionen und Transformationen bekannt, nachvollziehbar und zugänglich dokumentiert sind.

Dies ist für den standardisierten Bereich des Data Lake durch das Zusammenspiel der Data Governance-Elemente Data Lineage und Business Glossar erreichbar:

  • Die Data Lineage zeigt alle verwendeten Daten und Transformationen der Liefer- und Aggregationskette zu einer Kennzahl auf.
  • Durch das Mappen der fachlichen Begrifflichkeiten des Business Glossars auf alle Data Lineage-Punkte ist dann auch eine durchgängige und eindeutige Nachvollziehbarkeit der Verwendung fachlicher Daten-Definitionen an jedem Verarbeitungspunkt gegeben.

Konzeption und Umsetzung von Reporting-Inhalten greifen auf diese durchgängige Dokumentation zu und vermeiden dadurch fachliche Fehler bzw. Ungenauigkeiten. Auch kann somit durch geeignete Qualitätssicherungsmaßnahmen sichergestellt werden, dass die Verwendung unterschiedlicher Daten bewusst erfolgt und nicht aufgrund fehlender Kenntnis über deren Inhalte oder über relevante Transformationen.

Bei bewusster Verwendung verschiedener fachlicher Standards im Rahmen einer Aggregation oder in einem Report, unterstützt die so geschaffene Transparenz und Nachvollziehbarkeit eine verwendbare Interpretation. Auch die Abstimmung mit - beziehungsweise die Überleitung zu - weiteren Reports oder Kennzahlen wird damit ermöglicht und vereinfacht.

11.11.2021