The Doppler Quarterly (DEUTSCHE) Sommer 2017 | Page 14

TECHNISCHER RATGEBER

Ratgeber : Architekturmuster , die beim Entwerfen eines Enterprise Data Lakes zu berücksichtigen sind Sudi Bhattacharya und Neal Matthews

Dieser Artikel behandelt den Geschäftswert von Enterprise Data Lakes , das Design im Hinblick auf Speicher , Sicherheit und Governance und wie Sie Ihre Big Data als wesentliches Element zur Gewinnung wertvoller Informationen nutzen können .
Der Business Case
Beginnen wir mit der Definition eines Data Lakes :
„ Ein Data Lake ist ein Repository zur Datenspeicherung , das riesige Mengen an Rohdaten , wie beispielsweise strukturierte , semi-strukturierte und unstrukturierte Daten , in ihrem Ursprungsformat bereithält . Dabei werden die Datenstruktur und -anforderungen erst definiert , wenn die Daten benötigt werden .“ ... Und nun die Frage : Warum sollten Sie diese Themen interessieren ? Innovation
In einem großen Unternehmen sind es vor allem die Innovationen , die dank eines Data Lakes ermöglicht werden . Wir haben viele Multi-Milliarden-Dollar-Unternehmen gesehen , die Probleme damit haben , eine Unternehmenskultur zu etablieren , die auf datenorientierten Erkenntnissen und Innovationen beruht . Sie haben sich in strukturellen Silos festgefahren , die Datenspeicher auf Abteilungs- oder Geschäftsfeldebene isolieren , und die durch massive organisatorische Richtlinien im Zusammenhang mit dem Besitz von Daten widergespiegelt werden . Ein Enterprise Data Lake ist zwar alles andere als einfach zu implementieren , bietet jedoch die notwendige Grundlage , um das unternehmensweite Datenzugriffsproblem bereits an seinen Wurzeln zu beseitigen . Damit öffnet sich nicht nur die Tür zu bisher nicht verfügbaren explorativen Analysen und Data Mining , sondern bietet auch völlig neue Möglichkeiten . Geschwindigkeit
In der heutigen dynamischen Geschäftsumgebung treten sehr schnell neue Datenverbrauchsanforderungen und Anwendungsfälle auf . Bis zu dem Zeitpunkt , an dem ein Anforderungsdokument im Hinblick auf angeforderte Änderungen an Datenspeicher oder -schemas erstellt wurde , sind Benutzer häufig bereits zu einer anderen oder sogar widersprüchlichen Reihe von Schemaänderungen übergegangen . Im Gegensatz dazu dreht sich die gesamte Philosophie eines Data Lakes darum , für einen unbekannten Anwendungsfall gerüstet zu sein . Wenn sich die Quelldaten in einem zentralen Datensee ohne Kontrollstruktur oder eingebettetem Schema befinden , ist der Support eines neuen zusätzlichen Anwendungsfalls viel einfacher . Self-Service
Wie lange dauert es durchschnittlich zwischen einer Anfrage an die IT für einen Bericht und der späteren Bereitstellung eines zuverlässigen Arbeitsberichts in Ihrem Unternehmen ? In viel zu vielen Fällen lautet die Antwort Wochen oder sogar Monate . Mit einem richtig konzipierten Data Lake und einer gut ausgebildeten Business Community kann man Business Intelligence via Self-Service ermöglichen . So erhalten Mitarbeiter Zugriff auf das jeweils benötigte Daten-
12 | THE DOPPLER | SOMMER 2017