The Doppler Quarterly (FRANÇAIS) Été 2016 | Page 40
Entraîner les algorithmes
d'apprentissage
automatique à prévoir
les regroupements et
attribuer une étiquette
aux nouvelles données à la
lumière de ces prévisions.
Deviner les inconnues
sur la base des relations
acquises par entraînement
Identifier les relations
clés entre entités
Figure 4 : Processus d'apprentissage automatique
L'apprentissage automatique est un série d'étapes itératives permettant de
mettre en œuvre un ensemble connu de données analysées pour des modèles
spécifiques de formation et ce afin de les exécuter ultérieurement sur des
ensembles de données inconnus. La Figure 4 montre les étapes courantes sui-
vies par les scientifiques de données pour former les modèles nécessaires lors
de l'exploitation de l'apprentissage automatique. Une fois que les modèles ont
été formés, ils peuvent être mis en œuvre conjointement à différents outils
d'analyse, notamment les outils R, SAS et open source écrits en Python.
Les lacs de données basés sur le cloud ajoutent la possibilité d'exploiter les capa-
cités d'apprentissage automatique offertes par la plate-forme. Les fournisseurs,
notamment AWS et Google, fournissent un ensemble complet de modèles formés
à utiliser immédiatement sur les ensembles de données, ainsi que la capacité de
former des modèles personnalisés à utiliser sur les ensembles de données pro-
priétaires. AWS et Google ont déployé des variantes des technologies d'appren-
tissage automatique qu'ils ont utilisées et affinées en interne au fil des années.
Architecture
L'architecture technique d'un lac de données doit correspondre aux les cas
d'utilisation dominants exécutés sur la plate-forme. Lors de la conception d'une
solution de lac de données, les principaux facteurs de design sont :
• Cas d'utilisation – L'identification précoce des cas d'utilisation et des
charges de travail pour le lac de données permettra une hiérarchisation
adéquate de différents moteurs d'analyse, considérations d'évolutivité et
points d'intégration de données.
• Aspects opérationnels – L'architecture de lac de données doit inté-
grer les outils nécessaires pour la surveillance et la réponse, ainsi que les
technologies à exploiter pour s'assurer que le service informatique de
votre entreprise soit capable d’effectuer la maintenance du système.
• Évolutivité et performance – Avec la croissance et l'évolution de votre
organisation, l'utilisation d'un lac de données s'étendra. Les premières
décisions technologiques ne doivent pas oublier de faire en sorte que les
choix technologiques soient capables d’évolutivité sans être remplacés.
Ces trois principales considérations se traduisent ensuite plusieurs éléments
de design essentiels pour le lac de données :
• Accès aux données et récupération – Les fournisseurs de cloud
mettent à disposition une multitude d'outils pour accéder aux données à
38 | THE DOPPLER | ÉTÉ 2016