The Doppler Quarterly (FRANÇAIS) Été 2016

Entraîner les algorithmes d'apprentissage automatique à prévoir les regroupements et attribuer une étiquette aux nouvelles données à la lumière de ces prévisions. Deviner les inconnues sur la base des relations acquises par entraînement Identifier les relations clés entre entités Figure 4 : Processus d'apprentissage automatique L'apprentissage automatique est un série d'étapes itératives permettant de mettre en œuvre un ensemble connu de données analysées pour des modèles spécifiques de formation et ce afin de les exécuter ultérieurement sur des ensembles de données inconnus. La Figure 4 montre les étapes courantes sui- vies par les scientifiques de données pour former les modèles nécessaires lors de l'exploitation de l'apprentissage automatique. Une fois que les modèles ont été formés, ils peuvent être mis en œuvre conjointement à différents outils d'analyse, notamment les outils R, SAS et open source écrits en Python. Les lacs de données basés sur le cloud ajoutent la possibilité d'exploiter les capa- cités d'apprentissage automatique offertes par la plate-forme. Les fournisseurs, notamment AWS et Google, fournissent un ensemble complet de modèles formés à utiliser immédiatement sur les ensembles de données, ainsi que la capacité de former des modèles personnalisés à utiliser sur les ensembles de données pro- priétaires. AWS et Google ont déployé des variantes des technologies d'appren- tissage automatique qu'ils ont utilisées et affinées en interne au fil des années. Architecture L'architecture technique d'un lac de données doit correspondre aux les cas d'utilisation dominants exécutés sur la plate-forme. Lors de la conception d'une solution de lac de données, les principaux facteurs de design sont : • Cas d'utilisation – L'identification précoce des cas d'utilisation et des charges de travail pour le lac de données permettra une hiérarchisation adéquate de différents moteurs d'analyse, considérations d'évolutivité et points d'intégration de données. • Aspects opérationnels – L'architecture de lac de données doit inté- grer les outils nécessaires pour la surveillance et la réponse, ainsi que les technologies à exploiter pour s'assurer que le service informatique de votre entreprise soit capable d’effectuer la maintenance du système. • Évolutivité et performance – Avec la croissance et l'évolution de votre organisation, l'utilisation d'un lac de données s'étendra. Les premières décisions technologiques ne doivent pas oublier de faire en sorte que les choix technologiques soient capables d’évolutivité sans être remplacés. Ces trois principales considérations se traduisent ensuite plusieurs éléments de design essentiels pour le lac de données : • Accès aux données et récupération – Les fournisseurs de cloud mettent à disposition une multitude d'outils pour accéder aux données à 38 | THE DOPPLER | ÉTÉ 2016

The Doppler Quarterly (FRANÇAIS) Été 2016 | Page 40