The Doppler Quarterly (FRANÇAIS) Été 2017

Paquets et dossiers racines	Dossiers partitionnés	Clusters stockés
		sous forme de fichiers

Figure 1� : Couches de stockage d ’ un lac de données

tique devient le gardien de l ’ infrastructure et des données sur le cloud , tandis que les services commerciaux se chargent de les exploiter .

Conception du stockage physique

La base de la conception et de la mise en œuvre de tout lac de données est le stockage physique . Les ensembles de données primaires sont placés sur la couche de stockage principal . Cette couche héberge donc généralement des données brutes et / ou ayant subi un traitement léger . Lorsqu ’ on compare des technologies visant à développer le stockage d ’ un lac de données hébergé sur le cloud , les principes et exigences suivants sont les plus importants à évaluer :

Evolutivité exceptionnelle� - Dans la mesure où l ’ on prévoit généralement d ’ utiliser un lac de données comme banque de données principale de tout un département , voire de l ’ entreprise entière , on doit pouvoir lui appliquer une évolutivité significative sans se heurter à des limites de capacité fixes et arbitraires .

Haute durabilité�- En tant que référentiel principal des données stratégiques de l ’ entreprise , une couche de stockage principal de grande durabilité offre une excellente stabilité des données sans avoir besoin de recourir à des conceptions de haute disponibilité extrême .

Prise en charge des données non structurées , semi-structurées et structurées - L ’ un des éléments principaux guidant les choix de conception d ’ un lac de données est la capacité à stocker tous les types de données dans un même référentiel .

Indépendance vis-à-vis des schémas fixes - La possibilité d ’ appliquer un schéma à la lecture , selon les besoins de consommation souhaités , n ’ existe que si la couche de stockage principal sous-jacente n ’ impose aucun schéma fixe .

Séparation des ressources de calcul� - L ’ avantage philosophique et pratique le plus important des lacs de données hébergés sur cloud par rapport au stockage big data « hérité » sur Hadoop est la capacité à découpler le stockage du calcul , permettant ainsi leur évolutivité distincte .

Compte tenu de ces besoins , les banques basées sur les objets sont devenues de fait la solution évidente pour le stockage principal de lacs de données . AWS , Google et Azure proposent tous des technologies de stockage d ’ objets .

L ’ intérêt du stockage principal est de centraliser les données de tous types , sans leur imposer de schéma structurel , ou très peu . Cependant , un lac de données inclut généralement des « couches » supplémentaires superposées au stockage . Cela permet la conservation des données brutes de façon essentiellement immuable , pendant qu ’ une structure est ajoutée aux couches supplémentaires afin de faciliter une consommation efficace des données , pour du reporting et des analyses , par exemple . La Figure 1 représente les couches supplémentaires superposées à la couche de stockage brut .

Pour prendre un exemple spécifique , on pourrait ajouter une couche définie par une metastore Hive . Dans une telle couche , les fichiers de la banque d ’ objets sont par-

ÉTÉ 2017 | THE DOPPLER | 13

The Doppler Quarterly (FRANÇAIS) Été 2017 | Page 15