The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 45
Datennutzer
AWS-basierter Datenlake
Vorhersageanalysen
AWS Machine Learning
Datenverarbeitung
im Datenlake
Dashboards
Datenspeicherung und -wieder-
herstellung im Datenlake
Metadaten
Governance-
Richtlinien
Datenwissenschaft
ETL-Engine
Regeln/Abgleich-
Engine
E-Commerce
Spark
QuickSight
Mobile Apps
Datenintegration
S3
Glacier
Abbildung 7: In AWS gehostete Datenlake-Architektur
Zu den wichtigsten Datenlake-Technologien und -Funktionen von AWS
gehören:
Operative Aspekte
• CloudFormations – AWS stellt CloudFormations zur Verfügung, eine
automatisierte Methode, um Services und Konfigurationen wiederholbar
bereitzustellen.
Skalierbarkeit und Leistung
• IDM – AWS bietet erstklassige Funktionen für das Identitäts- und
Zugriffsmanagement für das gesamte Cloud-Portfolio, sowie die Mög-
lichkeit der Integration in bestehende LDAP- oder Active Directory-Inf-
rastrukturen. Dadurch sind einheitliche Berechtigungen über alle Daten-
zugriffsmethoden hinweg gewährleistet.
Datenzugriff und -abruf
• S3 – S3 ist die Objektspeicherplattform für AWS und stellt eine einfache
API für die Speicherung und den Abruf von Daten zur Verfügung.
• Redshift – Redshift ist die unternehmensweite AWS Data
Warehouse-Plattform. Sie bietet einen schnellen analytischen Zugriff auf
große und komplexe Datensätze. Redshift ist eine PaaS-Funktion, die
einen geringen operativen Mehraufwand gewährleistet.
• EMR – Elastic MapReduce ist eine AWS-Implementierung von MapRe-
duce, die eine umfassend skalierbare Batch-Verarbeitung von Daten
ermöglicht, die zur Abfrage und Analyse an andere Systeme gesendet
werden.
SOMMER 2016 | THE DOPPLER | 43