The Doppler Quarterly (日本語) 夏 2016 | Page 41
フォーム、および構造化されていないデータをバッチ処理するためのツールが提
供されていますが、これらのツールは、データの取り込みと処理に必要なインター
フェイスを含む、データレイクを設計するときに検討する必要があります。本書の
後半では、 AWS 社と Google 社から提供されているデータアクセスおよびデータ
検索用の特定のテクノロジーについて考察します。また、データアクセスを簡素化
するために、メタデータ用の一般的なプラットフォームを使用する必要があります。
• セキュリティ制御、ログの収集、および監査 – セキュリティはデータレイク
の重要な要素であり、ID 管理、監査、およびアクセス制御は、組織のリスクレベ
ルとコンプライアンスのニーズを満たすように設計する必要があります。また、ア
クセス制御は複数のアクセス方式の間で一致していなければなりません。
• 展開と自動化 – クラウドでの展開とリカバリを自動化する機能は、運用面に多
大な価値をもたらします。変更およびインシデント対応時の IT チームの作業負荷
を軽減するために、展開とリカバリに関連するデータレイクのすべての機能を自動
化する必要があります。
• 高度な機能 – 高度な機能には、データ分析用の API、または短時間でチームに
よる新たな分析とレポートのモックアップを可能にする展開ツールキットが含まれ
ます。
従来のエンタープライズシステムへの接続を含む、クラウドベースのデータレイクで推奨
される設計パターンを図 5 に示します。
データレイク
データコンシューマー
予測分析
機械学習
データレイクの
データの処理
ダッシュボード
ETLエンジン
ルール/マッチング
エンジン
ストリーミング分析
ガバナンスポリシー
データレイクのデータの
保存と検索
メタデータ
e-コマース
データサイエンス
BI
モバイル
アプリケーション
データ統合
オブジェクトストア
長期アーカイブ
図5: データレイクの機能アーキテクチャー
2016年夏号 | THE DOPPLER | 39