The Doppler Quarterly (日本語) 春 2017

図 6: AWS クラウドでの自動化の例 AWS Data Pipeline アドホッククエリデータベースサーバー Amazon S3 の Amazon Amazon S3 の抽出ファイル EMR ETL 変換後のクラスターデータオンプレミス AWS Cloud Amazon Redshift BI 分析上の図は、 AWS のビッグデータに関するドキュメントを出典としており、オンプレミスから S3 までのデータロードを示しています。一時的な EMR クラスターを通過したデータがさらに変換され最後に S3 にロードされています。ファイルフォーマットとパフォーマンスクラスターを使用する分散コンピューティングの環境では、フォーマットの選択が重要になります。中心となる考え方は、分割と圧縮が可能なファイルフォーマットを使用することです。これにより、さまざまなノードで分割と圧縮を行え、圧縮データをネットワーク全体で転送できます。Avro、 Parquet、 ORC が、よく知られるようになったファイルフォーマット名ですが、機能がすべて同じというわけではありません。私たちの経験で言えば、 Apache Hive はデータが ORC 形式で保存されているとパフォーマンスが向上します。一方で、 Apache Impala は Parquet の場合に性能を発揮します。チャンスは複雑さの中にクラウドテクノロジーが持つ変革のパワーは、高度な分析ソリューションに計り知れない価値をもたらし、進歩的な企業に恩恵を与えます。しかし、大きな力には任務が伴います。レガシーデータウェアハウス環境が持つ複雑さの深い分析、分析インフラストラクチャの展開とモダナイズへの一貫したクラウド戦略の構築、効果的な変更管理などを実施しなければなりません。この過程で、企業は何百万ドルものコスト節減を達成できるようになります。このシリーズの今後の記事では、特定のテクノロジーとソリューションを詳細に解説します。 2017 年春号 | THE DOPPLER | 29

The Doppler Quarterly (日本語) 春 2017 | Page 31