The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 48

Unveränderliche Daten für alle Vorgänge – Alle Vorgänge , die in einem Datenlake durchgeführt werden , sollten auf der Basis unveränderlicher Daten durchgeführt werden . So ist sichergestellt , dass fehlerhafte Prozesse oder Analysen entfernt werden können , ohne die Datenqualität für zukünftige Analysen zu beeinträchtigen .
• Deidentifikation von Daten – Viele Unternehmen müssen sensible Daten verarbeiten , z . B . Gesundheits- , Finanz- oder persönliche Daten . Ein Datenlake stellt ein besonderes Risiko dar , da viele Personen auf Daten zugreifen können , die zuvor auf unabhängigen Systemen gespeichert waren . Alle Daten , die in einem Datenlake gespeichert sind und einem großen Benutzerkreis zugänglich gemacht werden , sollten deidentifiziert werden , um den Schutz der Privatsphäre zu gewährleisten . In vielen Datenlakes gibt es getrennte Bereiche mit deidentifizierten und identifizierbaren Daten , wobei jeder Abschnitt für die jeweils berechtigten Mitarbeiter zugänglich ist .
• Quelldatensatz – Ein Datenlake ruft Daten aus mehreren Quellen ab und übermittelt Analyseergebnisse zurück an die betrieblichen Systeme . Das setzt voraus , dass Unternehmen die Quelle von Datensätzen für jeden Datentyp sorgfältig verfolgen und verstehen , wie diese Informationen zwischen den Systemen ausgetauscht und referenziert werden , um die Datenintegrität zu gewährleisten .
• Zuordnung von Beziehungen – Da die unabhängigen Systeme in Unternehmen über viele Jahre hinweg immer größer geworden sind , sind die Beziehungen in den Daten komplex geworden . Eine erfolgreiche Datenlake-Lösung muss sicherstellen , dass die Datenelemente korrekt zugeordnet werden , sodass Berichte über Systeme , Zeiträume und Geschäftsbereiche hinweg erstellt werden können .
• Metadaten-Katalog – Um sicherzustellen , dass alle Benutzer von Datenlakes die benötigten Daten effektiv lokalisieren können , sollte ein Metadaten-Katalog mit Informationen über Datensätze , Beziehungen , Datenqualität und archivierte Informationen , z . B . bisherige Analysen und Ergebnisse , bereitgestellt werden .
Datensicherheit
Strenge Sicherheitskontrollen , die durch Governance-Richtlinien im Unternehmen unterstützt werden , sind eine wesentliche Komponente aller Datenlake-Implementierungen . Aufgrund der unterschiedlichen Datensätze , die in einem Datenlake zusammengeführt werden , und der Vielfalt der Benutzer , die auf die Daten sowohl strukturiert als auch ad-hoc zugreifen , müssen die Governance- und Sicherheitskontrollen klar und automatisiert sein und aktiv auf geschäftliche Anforderungen und externe Sicherheitsbedrohungen reagieren .
In Abbildung 9 sind drei Best Practices für die Datenintegration beim Aufbau eines Datenlakes dargestellt :
• Sicherheitskontext – Der gesamte Sicherheitskontext , einschließlich Zugriffskontrollen , Tagging und Verantwortlichkeiten , sollte bei der Verlagerung zwischen Systemen durch Daten ergänzt werden . Auf diese Weise ist sichergestellt , dass beim Importieren / Exportieren von Daten die Richtlinien zwischen den Systemen einheitlich sind .
• Identitäten – Identitäten sollten über alle Systeme hinweg einheitlich sein . Zwangsläufig werden Daten repliziert , um Leistungsanforderungen zu erfüllen ; einheitliche Identitäten zwischen den Systemen stellen
46 | THE DOPPLER | SOMMER 2016