The Doppler Quarterly (DEUTSCHE) Sommer 2016 | Page 40

Algorithmen für maschinelles Lernen weiterentwickeln , um Gruppierungen vorherzusagen und neue Daten gemäß dieser Vorhersagen zu benennen
Unbekannte auf der Basis von
Beziehungen schätzen
Zentrale Entitätsbeziehungen erkennen
Abbildung 4 : Prozess beim maschinellen Lernen
Maschinelles Lernen ist eine Reihe aufeinanderfolgender Schritte zur Nutzung eines bekannten , analysierten Datensatzes , um spezielle Modelle für die zukünftige Ausführung bei unbekannten Datensätzen zu entwickeln . In Abbildung 4 sind die typischen Schritte dargestellt , mit denen Datenwissenschaftler bei der Verwendung von Funktionen für maschinelles Lernen die notwendigen Modelle entwickeln . Sobald die Modelle entwickelt sind , können sie in Verbindung mit einer Vielzahl von Analysetools wie R , SAS und Open Source-Tools , die in Python geschrieben wurden , eingesetzt werden .
Cloudbasierte Datenlakes bieten den zusätzlichen Vorteil , dass sie Funktionen für maschinelles Lernen über eine Plattform nutzen können . Anbieter , z . B . AWS und Google , stellen eine Vielzahl entwickelter Modelle zur sofortigen Verwendung mit Datensätzen zur Verfügung und bieten die Möglichkeit , benutzerdefinierte Modelle zur Verwendung mit proprietären Datensätzen zu entwickeln . Sowohl AWS als auch Google haben Varianten der Technologien für maschinelles Lernen implementiert , die sie intern über viele Jahre hinweg eingesetzt und weiterentwickelt haben .
Architektur
Die technische Architektur eines Datenlakes muss mit den vorherrschenden Anwendungsfällen , die auf der Plattform ausgeführt werden , übereinstimmen . Die wichtigsten Faktoren bei der Konzeption einer Datenlake-Lösung sind folgende :
• Anwendungsfälle – Die frühzeitige Identifizierung der Anwendungsfälle und Workloads für den Datenlake ermöglicht die richtige Priorisierung verschiedener Analyse-Engines , Überlegungen zur Skalierbarkeit und Datenintegrationspunkte .
• Operative Aspekte – Bei der Datenlake-Architektur sollten die notwendigen Tools für Überwachung und Gegenmaßnahmen berücksichtigt werden . Außerdem muss festgelegt werden , welche Technologien eingesetzt werden , um sicherzustellen , dass das System von der IT-Organisation im Unternehmen gewartet werden kann .
• Skalierbarkeit und Leistung – Die Verwendung des Datenlakes weitet sich aus , wenn Ihr Unternehmen expandiert und sich weiterentwickelt . Bei frühzeitigen Entscheidungen für eine Technologie sollte beachtet werden , ob sich die Technologie ohne Austausch skalieren lässt .
Diese drei wichtigsten Aspekte werden dann zu mehreren zentralen Elementen bei der Konzeption eines Datenlakes :
38 | THE DOPPLER | SOMMER 2016