Paquets et dossiers racines |
Dossiers partitionnés |
Clusters stockés |
|
|
sous forme de fichiers |
Figure 1� : Couches de stockage d ’ un lac de données
tique devient le gardien de l ’ infrastructure et des données sur le cloud , tandis que les services commerciaux se chargent de les exploiter .
Conception du stockage physique
La base de la conception et de la mise en œuvre de tout lac de données est le stockage physique . Les ensembles de données primaires sont placés sur la couche de stockage principal . Cette couche héberge donc généralement des données brutes et / ou ayant subi un traitement léger . Lorsqu ’ on compare des technologies visant à développer le stockage d ’ un lac de données hébergé sur le cloud , les principes et exigences suivants sont les plus importants à évaluer :
Evolutivité exceptionnelle� - Dans la mesure où l ’ on prévoit généralement d ’ utiliser un lac de données comme banque de données principale de tout un département , voire de l ’ entreprise entière , on doit pouvoir lui appliquer une évolutivité significative sans se heurter à des limites de capacité fixes et arbitraires .
Haute durabilité�- En tant que référentiel principal des données stratégiques de l ’ entreprise , une couche de stockage principal de grande durabilité offre une excellente stabilité des données sans avoir besoin de recourir à des conceptions de haute disponibilité extrême .
Prise en charge des données non structurées , semi-structurées et structurées - L ’ un des éléments principaux guidant les choix de conception d ’ un lac de données est la capacité à stocker tous les types de données dans un même référentiel .
Indépendance vis-à-vis des schémas fixes - La possibilité d ’ appliquer un schéma à la lecture , selon les besoins de consommation souhaités , n ’ existe que si la couche de stockage principal sous-jacente n ’ impose aucun schéma fixe .
Séparation des ressources de calcul� - L ’ avantage philosophique et pratique le plus important des lacs de données hébergés sur cloud par rapport au stockage big data « hérité » sur Hadoop est la capacité à découpler le stockage du calcul , permettant ainsi leur évolutivité distincte .
Compte tenu de ces besoins , les banques basées sur les objets sont devenues de fait la solution évidente pour le stockage principal de lacs de données . AWS , Google et Azure proposent tous des technologies de stockage d ’ objets .
L ’ intérêt du stockage principal est de centraliser les données de tous types , sans leur imposer de schéma structurel , ou très peu . Cependant , un lac de données inclut généralement des « couches » supplémentaires superposées au stockage . Cela permet la conservation des données brutes de façon essentiellement immuable , pendant qu ’ une structure est ajoutée aux couches supplémentaires afin de faciliter une consommation efficace des données , pour du reporting et des analyses , par exemple . La Figure 1 représente les couches supplémentaires superposées à la couche de stockage brut .
Pour prendre un exemple spécifique , on pourrait ajouter une couche définie par une metastore Hive . Dans une telle couche , les fichiers de la banque d ’ objets sont par-
ÉTÉ 2017 | THE DOPPLER | 13