The Doppler Quarterly (FRANÇAIS) Été 2017 | Page 18

la gouvernance des données implique également que les processus métier déterminent les métadonnées clés requises . De la même façon , les exigences de qualité des données liées à des concepts tels que l ’ exhaustivité , la précision , l ’ homogénéité et la standardisation sont par essence des décisions de politiques d ’ entreprises qu ’ il faut prendre , avant d ’ intégrer leurs implications aux systèmes techniques et aux processus qui mènent effectivement à bien le respect de ces exigences .
Les technologies utilisées pour implémenter les politiques de gouvernance des données dans la mise en œuvre d ’ un lac de données ne sont généralement pas des produits ou des services individuels . La meilleure approche consiste à anticiper le besoin d ’ intégrer le respect des exigences de gouvernance des données à l ’ ensemble de l ’ infrastructure « lac de données » et des outils .
Permettre la mise en catalogue et la recherche des métadonnées
Points clés
Une stratégie de stockage des métadonnées doit être appliquée à tout projet de conception d ’ un lac de donnés , afin de permettre aux utilisateurs de l ’ entreprise de rechercher , localiser et tirer parti des ensembles de données disponibles sur le lac . Alors que l ’ entreposage de données traditionnelles stocke un ensemble fixe et statique de définitions et de caractéristiques de données utiles au sein de la couche de stockage relationnel , le stockage de lac de données est conçu pour prendre en charge de façon flexible l ’ application d ’ un schéma au moment de la lecture . Cependant , cela implique de mettre en place une couche de stockage distincte pour héberger les catalogues de métadonnées qui révèlent le sens technique et commercial des données . Certaines entreprises se contentent parfois d ’ accumuler du contenu dans leur lac de données , sans couche de métadonnées , mais c ’ est la meilleure façon de se retrouver avec un marais de données ingérable plutôt qu ’ un lac de données utile . Il existe un grand nombre d ’ approches et de solutions pour s ’ assurer de la création et de l ’ entretien de métadonnées appropriées . Voici quelques principes et modèles importants à garder en tête .
Forcer la création des métadonnées - Le meilleur moyen de s ’ assurer de la création des métadonnées appropriées est de l ’ imposer . Assurez-vous que toutes les méthodes d ’ intégration des données dans la couche de stockage principal du lac de données créent systématiquement les métadonnées , et que toute nouvelle routine d ’ intégration de données spécifie comment les métadonnées doivent être créées .
Automatiser la création des métadonnées - Comme pour presque tout ce qui a trait au cloud , l ’ automatisation est la clé de l ’ homogénéité et de la précision . Dès que possible , intégrez au système l ’ automatisation de la création des métadonnées extraites du matériau source .
Donner la priorité aux solutions cloud natives - Dès que possible , utilisez des structures d ’ automatisation cloud natives pour la capture , le stockage et l ’ accès aux métadonnées au sein de votre lac de données .
Les attributs principaux généralement catalogués pour une source de données sont listés dans le tableau situé en page suivante .
Une idée de solution basée sur AWS
Un exemple de solution simple a été suggéré par AWS , qui implique le déclenchement d ’ une fonction AWS Lambda lorsqu ’ un objet de données est créé sur S3 , et
16 | THE DOPPLER | ÉTÉ 2017