The Doppler Quarterly (日本語) 夏 2016 | Page 42
データレイクを構築するときは、さまざまなデータセットへのアクセスを提供するために
連携する複雑なテクノロジーを統合します。すべてのデータレイク環境に含める必要が
ある、重要な機能領域は以下のとおりです。
データ処理 – 自動化された信頼性の高い方法で他のシステムにシームレスに接続して
データの明確なマッピングを提供し、さまざまな場所にデータを移動させるためのデー
タレイクの機能です。
• ストリーミング – 移動中のデータを分析し、それに基づいて意思決定を行うため
の機能です。
• ルール/ マッチング - 匿名化や重複排除といった操作のためにデータに対するパ
ターンマッチングを実行する機能です。
• ETL – 抽出 / 変換 / ロードエンジンは、既存の RDBMS および EDW プラット
フォームへの統合で重要な役割を果たします。
• ガバナンス - コンプライアンスを確保して企業ポリシーに従うために、データレイ
クのエッジにおいて、すべてのガバナンス機能を一貫した方法で実行する必要が
あります。
データの保存と検索 – 開発者がデータレイクから標準的な API を使用して、標準的な形式
のデータのクエリを実行できるようにするための機能領域です。
• バッチ - 通常はインタラクティブなワークロードに使用されることのない、スルー
プットとレイテンシの高い分析対象データの処理機能です。
• 分析 - 通常は、時間とともにクエリが変化するインタラクティブなワークロードに
使用されます。
• インメモリ - インタラクティブな使用やその他の低レイテンシのニーズに対応す
る、非常にレイテンシの低いクエリをサポートするために使用されます。
• 検索 / インデックス - 情報や関係を迅速に特定する機能をサポートします。
• OLTP – 事業部門や運用チームで使用されることの多いトランザクションシステム
をサポートすることを目的としています。
ストレージ – 主に 2 つのタイプがあります。
• オブジェクト - オブジェクトストレージは、非リレーショナルデータと後から分析を
行う情報の履歴コピーを保存する、データレイクの重要なコンポーネントです。
• 長期 - 通常オブジェクトストレージのコンポーネントである長期ストレージは、定
期的に使用しない可能性があるものの、引き続きアクセス可能な状態にしておく必
要があるデータのアーカイブに必要です。一般的には、コンプライアンスポリシー
やリーガルホールドの規則に準拠するために使用されます。
データコンシューマー – データレイクは、データコンシューマーがデータへのアクセ
スとさまざまなタイプのアプリケーションへのデータの提供に使用する、多様なインター
フェイスをサポートできます。
40 | THE DOPPLER | 2016年夏号