The Doppler Quarterly (日本語) 春 2017 | Page 31
図 6: AWS クラウドでの自動化の例
AWS Data Pipeline
アドホック
クエリ
データ
ベース
サーバー
Amazon S3 の Amazon Amazon S3 の
抽出ファイル EMR ETL
変換後の
クラスター
データ
オンプレミス
AWS Cloud
Amazon
Redshift
BI 分析
上の図は、 AWS のビッグデータに関するドキュメントを出典としており、オンプレミスから S3
までのデータロードを示しています。一時的な EMR クラスターを通過したデータがさらに変
換され最後に S3 にロードされています。
ファイルフォーマットとパフォーマンス
クラスターを使用する分散コンピューティングの環境では、フォーマットの選択が重要になり
ます。中心となる考え方は、分割と圧縮が可能なファイルフォーマットを使用することです。こ
れにより、さまざまなノードで分割と圧縮を行え、圧縮データをネットワーク全体で転送でき
ます。Avro、 Parquet、 ORC が、よく知られるようになったファイルフォーマット名ですが、機
能がすべて同じというわけではありません。私たちの経験で言えば、 Apache Hive はデータ
が ORC 形式で保存されているとパフォーマンスが向上します。一方で、 Apache Impala は
Parquet の場合に性能を発揮します。
チャンスは複雑さの中に
クラウドテクノロジーが持つ変革のパワーは、高度な分析ソリューションに計り知れない価
値をもたらし、進歩的な企業に恩恵を与えます。しかし、大きな力には任務が伴います。レガ
シーデータウェアハウス環境が持つ複雑さの深い分析、分析インフラストラクチャの展開とモ
ダナイズへの一貫したクラウド戦略の構築、効果的な変更管理などを実施しなければなりま
せん。この過程で、企業は何百万ドルものコスト節減を達成できるようになります。
このシリーズの今後の記事では、特定のテクノロジーとソリューションを詳細に解説します。
2017 年春号 | THE DOPPLER | 29