The Doppler Quarterly (FRANÇAIS) Été 2017 | Page 17
able, avec des structures de stockage sous-jacentes
(partitions, dossiers) et des formats de fi chiers (ORC et
Parquet, par exemple) différents.
Conception de la sécurité
Comme pour tous les déploiements basés sur le cloud, la
sécurité d’un lac de données d’entreprise constitue une
priorité stratégique, qui doit être élaborée dès le départ.
De plus, le déploiement ne peut être effi cace que si la
sécurité du lac de données est déployée et gérée au sein
de l’infrastructure et des contrôles de sécurité de l’en-
semble de l’entreprise. Un déploiement de lac de don-
nées exige de se pencher sur trois domaines de sécurité
principaux :
• Cryptage
• Sécurité au niveau du réseau
• Contrôle de l’accès
Cryptage - Quasiment toutes les organisations à
l’échelle de l’entreprise nécessitent le cryptage des don-
nées stockées, sinon de façon universelle, au moins pour
la plupart des classes de données autres que celles en
accès public. Tous les grands fournisseurs de cloud
prennent en charge le cryptage sur leurs technologies
de stockage d’objets principal (comme AWS S3), soit par
défaut, soit en option. De la même façon, les technolo-
gies utilisées pour d’autres couches de stockage, comme
les banques de données dérivées pour la consommation,
proposent également du cryptage, en règle générale.
La gestion des clés de cryptage est également un point
important à prendre en compte, dont les besoins sont
généralement dictés par les contrôles de sécurité de
l’ensemble de l’entreprise. Les clés peuvent être créées
et gérées par le fournisseur de cloud, générées par le cli-
ent et gérées par le fournisseur de cloud ou entièrement
créées et gérées sur site par le client.
également être cohérente par rapport à la structure de
sécurité de l’ensemble de l’entreprise.
Contrôle de l’accès|- Cet axe se focalise sur l’Authentifi -
cation (qui êtes-vous ?) et l’Autorisat ion (qu’avez-vous le
droit de faire ?). Quasiment toutes les entreprises ont
déjà mis en place des technologies standard d’authenti-
fi cation et de répertoires d’utilisateurs, telles qu’Active
Directory, par exemple. Tous les grands fournisseurs de
cloud prennent également en charge des méthodes de
mappage de l’infrastructure d’identités d’entreprise sur
l’infrastructure de permissions des ressources et ser-
vices du fournisseur de cloud. Bien que la mise en place
de ces mesures puisse être complexe, les rôles associés
à l’infrastructure de gestion de l’accès du fournisseur de
cloud (comme IAM sur AWS) ne peuvent être assumés
que par des utilisateurs authentifi és, ce qui permet un
contrôle affi né des permissions sur les opérations
autorisées. On peut généralement en dire de même pour
les produits tiers qui s’exécutent dans le cloud, comme
les outils de reporting ou de veille stratégique. Les pro-
tocoles LDAP et/ou Active Directory sont généralement
pris en charge pour l’authentifi cation, et les rôles et
autorisations internes aux outils peuvent être corrélés
et dirigés avec les identités des utilisateurs authentifi és.
Etablir la gouvernance
La gouvernance des données désigne généralement la
gestion globale de la disponibilité, de la facilité d’utilisa-
tion, de l’intégrité et de la sécurité des données
employées dans une entreprise. Elle repose sur des
stratégies d’entreprise et des pratiques techniques. De
la même façon que pour les autres aspects décrits pour
tout déploiement cloud, la gouvernance des données
pour un lac de données d’entreprise doit se conformer et
être régie par des pratiques et des politiques globales
pour l’ensemble de l’organisation.
Le dernier point à aborder à ce sujet est le cryptage des
données en transit. Cela concerne les données se
déplaçant sur le réseau entre les appareils et les ser-
vices. Dans la plupart des cas, ce type de cryptage est
facile à confi gurer à l’aide d’options intégrées à chaque
service, ou en utilisant les protocoles standard TLS/SSL
associés aux certifi cats appropriés. Dans les infrastructures d’entrepôts de données tradi-
tionnelles, le contrôle du contenu de la base de données
est généralement aligné sur les données métier, et
séparé en silos par unités opérationnelles ou fonctions
au sein du système. Cependant, dans le but de tirer avan-
tage de la centralisation des données d’une entreprise, il
est nécessaire de mettre en place une gouvernance des
données basée sur une vision centralisée.
Sécurité au niveau du réseau - Une autre couche de
sécurité importante se situe au niveau du réseau. Les
concepts natifs du cloud tels que les groupes de sécu-
rité, tout comme les méthodes traditionnelles, et nota-
mment les listes de contrôle d’accès et les restrictions de
blocs d’adresse CIDR, jouent tous un rôle dans l’implé-
mentation d’une stratégie de « défense en profondeur »,
en cloisonnant de grands pans de chemins d’accès inap-
propriés au niveau du réseau. Cette implémentation doit Même si une entreprise n’est pas à complète maturité
concernant ses pratiques de gouvernance des données,
il est absolument crucial qu’un ensemble de contrôles
minimal soit mis en place afi n que les données ne puis-
sent entrer dans le lac sans métadonnées (« données sur
les données ») défi nies et capturées. Bien que cela
dépende en partie de l’implémentation technique de l’in-
frastructure de métadonnées telle que décrite dans la
section « Conception du stockage physique » ci-dessus,
ÉTÉ 2017 | THE DOPPLER | 15