Amazon S3
Amazon Cognito
Amazon DynamoDB
Amazon S3 ( console de lac de données )
AWS Lambda ( gestionnaire des autorisations personnalisé )
Amazon ES
Journaux Amazon CloudWatch
Amazon API Gateway ( API compatible REST de lac de données )
AWS Lambda ( micro-services de lac de données )
Interface en lignes de commande de lac de données ( accès API compatible REST )
Rôles de gestion des identités et des accès
Figure 3� : Un exemple d ’ architecture proposé par AWS pour le stockage des métadonnées d ’ un lac de données
qui stocke les attributs de données dans une base de données DynamoDB . Le catalogue basé sur DynamoDB qui en résulte peut être indexé par Elasticsearch , permettant ainsi aux utilisateurs de l ’ entreprise de rechercher du texte .
AWS Glue , un produit qui doit sortir sous peu , fournit un ensemble d ’ outils automatisés pour la prise en charge de fonctionnalités de catalogue des sources de données . AWS Glue peut parcourir les sources de données et élaborer un catalogue à l ’ aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires , notamment JSON , CSV , Parquet et plus encore . Voilà un outil qui offre un potentiel prometteur pour les implémentations d ’ entreprise .
Nous recommandons à nos clients de faire des catalogues de données un point central de l ’ implémentation des lacs de données .
Accès et exploitation du lac Schéma à la lecture
Le « schéma à l ’ écriture » constitue le modèle de référence pour le nettoyage , la transformation et l ’ ajout de schémas logiques aux données avant leur stockage dans une base de données relationnelle « structurée ». Cependant , comme nous l ’ avons déjà remarqué , les lacs de données sont construits sur un modèle radicalement différent de « schéma à la lecture » qui empêche la banque de données primaires d ’ être verrouillée dans un schéma prédéfini . Les données sont stockées dans un format brut ou légèrement traité , et chaque outil d ’ analyse peut donc imposer à un ensemble de données le sens commercial le plus adapté au contexte de l ’ analyse . Cette approche offre de nombreux avantages , et permet notamment l ’ accès de divers outils aux données , pour des objectifs variés .
Traitement de données
Une fois la couche brute de données immuables installée dans le lac , il vous faudra créer plusieurs couches de données traitées pour permettre divers cas d ’ utilisation pour l ’ entreprise . Voici des exemples de stockage structuré tel qu ’ on l ’ a décrit plus haut . Les opérations classiques nécessaires à la création de ces banques de données structurées incluent :
• La combinaison de différents ensembles de données
• La dénormalisation
• Le nettoyage , la déduplication , la fusion d ’ enregistrements
• La dérivation de champs de données traitées
Apache Spark est devenu l ’ outil de référence pour le traitement de la couche de données brutes afin de créer diverses couches de données structurées à valeur ajoutée .
Entreposage de données
Pour certains cas d ' utilisation spécialisés ( comme les entrepôts de données hautes performances ), il peut être nécessaire de lancer des requêtes SQL sur des pétaoctets de données et de renvoyer très rapidement des résultats d ’ analyse complexes . Dans ces situations , il
18 | THE DOPPLER | ÉTÉ 2017