The Doppler Quarterly (日本語) 夏 2016

Schema on Read – データレイク内のワークロードや分析のパターンはそれぞれ異なるため、読み取り時にすべてのスキーマを適用する必要がありますが、この Schema on Read モデルでは、各アナリストがデータビューとデータ関係を最適化できます。すべての作業で不変のデータ – データレイクでの作業はすべて、不変のデータで実行する必要があります。これにより、将来の分析に使用するデータの品質に影響を与えることなく、不正なプロセスや分析を排除することが可能になります。 • データの匿名化 – 多くの組織は、医療、財務、または個人情報を含む機密データを取り扱っています。データレイクは、多くの個人が以前サイロに格納されていたデータにアクセスできてしまうという、固有のリスクをもたらすため、データレイクに置かれた、幅広いユーザーがアクセス可能なデータはすべて、個人のプライバシーが保護されるよう匿名化する必要があります。多くのデータレイクには、匿名化されたデータと識別可能なデータが含まれた領域が個別にあり、各セクションには然るべきスタッフがアクセスできます。 • 記録の情報源 – データレイクは、複数の情報源からデータを引き出すとともに、分析の結果をオペレーショナルシステムに戻します。そのため、組織は各データタイプの記録の情報源を注意深く追跡し、システム間の情報の移行方法、および情報の参照方法を把握してデータ整合性を確保する必要があります。 • 関係のマッピング – 組織が長年にわたってデータのサイロを拡大する中で、データの関係は複雑化しています。データレイクを正しく構築するには、システム、期間、および事業部門に関する報告が行えるよう、データ要素を適切にマッピングする必要があります。 • メタデータカタログ – すべてのデータレイクユーザーが必要なデータを効率的に見つけ出すことができるよう、メタデータカタログを導入し、データセット、関係、データ品質、および過去の分析や結果を含む履歴情報に関する情報を提供する必要があります。データセキュリティデータレイクの実装においては、どのようなケースでも組織的なガバナンスポリシーに支えられる強力なセキュリティ制御が重要なコンポーネントとなります。データレイクではまったく異なるデータセットが統合され、さまざまなユーザーが構造化された手法と一時的な手法の両方でデータにアクセスするため、ガバナンスおよびセキュリティ制御は、明瞭で自動化されており、ビジネスニーズや外部の脅威にアクティブに対応するものでなければなりません。図 9 は、データレイクを構築する際のデータの統合に関する 3 つのベストプラクティスの概要を示したものです。 • セキュリティコンテキスト – アクセス制御、タグ付け、およびオーナーシップを含む、すべてのセキュリティコンテキストをシステム間で移動させるときは、データも移動させる必要があります。これにより、データをインポート/ エクスポートするときに、システム間で実行するポリシーの一貫性が保たれるようになります。 46 | THE DOPPLER | 2016年夏号

The Doppler Quarterly (日本語) 夏 2016 | Page 48