Wenn man vor lauter Fischen keinen Schwarm sieht
Die Erweiterung des Datenbestandes eines Data Lake kann – obwohl gut gemeint – auch negative Auswirkungen auf dessen Nutzung haben. Wird die Datenbasis eines Data Lake – so wie der Fischbestand in unserem See – unkoordiniert, wenig bedarfsorientiert und ohne entsprechende Kommunikation ausgebaut, so sind die Nutzer mit der Datenbreite und -menge schnell erschlagen.
Maximale Daten benötigen auch maximale Transparenz
Wesentliche Motivation für den Aufbau eines Data Lake ist die Bereitstellung eines möglichst breiten Pools abhängiger und unabhängiger Daten für unterschiedliche Anwendungszwecke eines Finanzinstituts. Dabei stellt die Bereitstellung einer möglichst großen Datenvielfalt und -menge sowohl bei der Konzeption der Datenarchitektur im Rahmen des initialen Aufbaus als auch bei der Gestaltung weiterer Evolutionsschritte eine große Herausforderung dar. Neben Fragestellungen zur Anwendungsarchitektur oder Data Governance betrifft dies auch die Sicherstellung einer größtmöglichen Transparenz über die verfügbaren Datenbereiche zu jedem Zeitpunkt dieses Entwicklungsprozesses. Diese ist sowohl für die aktuellen, aber insbesondere auch für die potenziellen Datennutzer von großer Bedeutung.
Bei früheren Datensilos oder den in den letzten Jahren entstandenen Datawarehouse Systemen fokussierten die Analyseanforderungen auf die Erzeugung bereits definierter Kennzahlen und Reports bezogen auf Daten der Vergangenheit. Data Lake-Architekturen bieten darüber hinaus – auf Basis einer deutlich vergrößerten Datengrundlage – die Möglichkeit zur Erzeugung von Prognosen, der Ableitung von Handlungsalternativen oder sogar zu automatisierten Entscheidungsfindungen (KI). Als Beispiele seien hier nur (prädiktive) Analysen historischer Daten zur Ausweitung des Vertriebs oder zur Optimierung der Produktentwicklung genannt.
Werden die Unternehmensbereiche nicht aktiv über durchgeführte und anstehende Datenerweiterungen in einer solchen Architektur informiert bzw. in deren Planung einbezogen, so besteht die Gefahr das zum Beispiel
- keine neuen fachlichen Use Cases unter Verwendung dieser Daten umgesetzt werden,
- keine Impulse für zukünftige Erweiterungen der Datenbereiche erfolgen und
- bestehende Anwendungen nicht das gesamte Daten-Potenzial, sondern nur die bereits "bekannten" Daten nutzen,
In der Folge besteht somit das Risiko, dass das Investment in eine breite Datenarchitektur in einem nur wenig genutzten, weil intransparenten Datensumpf endet.
«Werbetrommel» für den Data Lake
Ein wesentliches Instrument zur Bereitstellung von Informationen über den Ist-Zustand eines Datenhaushaltes ist sicherlich das in dieser Reihe bereits angesprochene Business Glossar. Darüber hinaus sind aber auch Informationen zum Veränderungs- bzw. Erweiterungsprozess der Datenbasis erforderlich. Dies gilt auch, da die Aktualisierung des Glossars erfahrungsgemäß zeitlich nachgelagert zu fachlichen bzw. technischen Erweiterungen des Datenbestandes erfolgt. Geeignete Maßnahmen hierzu sind zum Beispiel
- die allgemeine Bereitstellung einer transparenten Roadmap zum Auf- und Ausbau des Data Lake,
- die Zugänglichkeit von Informationen aus dem Change Management (zum Beispiel Release Notes) und
- die aktive Kommunikation zu Datenerweiterungen über Newsletter, blogs und/oder andere unternehmensweite Publikationen.
Durch die Summe solcher Maßnahmen, Initiativen und Formate kann somit das Interesse an einem unternehmensweit einsetzbaren Data Lake gesteigert und dessen großes Potenzial genutzt werden.