The Doppler Quarterly (日本語) 夏 2016 | Page 48
Schema on Read – データレイク内のワークロードや分析のパターンはそれぞれ異なる
ため、読み取り時にすべてのスキーマを適用する必要がありますが、この Schema on
Read モデルでは、各アナリストがデータビューとデータ関係を最適化できます。
すべての作業で不変のデータ – データレイクでの作業はすべて、不変のデータで実行
する必要があります。これにより、将来の分析に使用するデータの品質に影響を与える
ことなく、不正なプロセスや分析を排除することが可能になります。
• データの匿名化 – 多くの組織は、医療、財務、または個人情報を含む機密デー
タを取り扱っています。データレイクは、多くの個人が以前サイロに格納されてい
たデータにアクセスできてしまうという、固有のリスクをもたらすため、データレイ
クに置かれた、幅広いユーザーがアクセス可能なデータはすべて、個人のプライバ
シーが保護されるよう匿名化する必要があります。多くのデータレイクには、匿名
化されたデータと識別可能なデータが含まれた領域が個別にあり、各セクション
には然るべきスタッフがアクセスできます。
• 記録の情報源 – データレイクは、複数の情報源からデータを引き出すとともに、
分析の結果をオペレーショナルシステムに戻します。そのため、組織は各データタ
イプの記録の情報源を注意深く追跡し、システム間の情報の移行方法、および
情報の参照方法を把握してデータ整合性を確保する必要があります。
• 関係のマッピング – 組織が長年にわたってデータのサイロを拡大する中で、
データの関係は複雑化しています。データレイクを正しく構築するには、システム、
期間、および事業部門に関する報告が行えるよう、データ要素を適切にマッピン
グする必要があります。
• メタデータカタログ – すべてのデータレイクユーザーが必要なデータを効率的
に見つけ出すことができるよう、メタデータカタログを導入し、データセット、関
係、データ品質、および過去の分析や結果を含む履歴情報に関する情報を提供
する必要があります。
データセキュリティ
データレイクの実装においては、どのようなケースでも組織的なガバナンスポリシーに
支えられる強力なセキュリティ制御が重要なコンポーネントとなります。データレイクで
はまったく異なるデータセットが統合され、さまざまなユーザーが構造化された手法と
一時的な手法の両方でデータにアクセスするため、ガバナンスおよびセキュリティ制御
は、明瞭で自動化されており、ビジネスニーズや外部の脅威にアクティブに対応するも
のでなければなりません。
図 9 は、データレイクを構築する際のデータの統合に関する 3 つのベストプラクティス
の概要を示したものです。
• セキュリティコンテキスト – アクセス制御、タグ付け、およびオーナーシップ
を含む、すべてのセキュリティコンテキストをシステム間で移動させるときは、デー
タも移動させる必要があります。これにより、データをインポート/ エクスポート
するときに、システム間で実行するポリシーの一貫性が保たれるようになります。
46 | THE DOPPLER | 2016年夏号