The Doppler Quarterly (日本語) 春 2017 | Page 35
タ品質を適切なレベルでチェックできなければ、企業は、クラ
ウドプラットフォームの利用で得られる潜在的なメリットを否
定しかねない規制または運用の問題にぶつかります。クライア
ントが AWS を特に活用している場合、次のタイプのチェックを
お勧めします。
• 入力データ品質チェック - データが、オンプレミスまたは
サードパーティシステムから、 Amazon S3 に転送されてい
る場合、自律データ品質チェックを実行し、重複したレコー
ドとファイル、異常なレコード、不完全なレコード、不要に流
れる構造的データとセマンティックデータなどにフラグを設
定する必要があります。
著者について
Seth Rao と Amit Dutta は、それぞれ FirstEigen の CEO と
CTO です。FirstEigen はシカゴを拠点とするデータ検証と
データ分析の企業です。両者が注目しているのは、データ品質
ツールに機械学習を活用し、最小限の設定と人手によって自
律的なプロセスを実現することです。
• オンプレミス、 S3、 Amazon EMR、 Redshift 間のデータ網
羅性 - オンプレミスシステムからランディングゾーン (S3)、
処理アプリケーション (EMR)、最終的な宛先であるウェア
ハウスシステム (Redshift) へと転送される間に、レコードの
損失が発生しないようにします。
クラウドで大規模な分析を展開する前に、企業は、データ品質
の主要な標準の定義に取り組み、アナリストが効果的にデータ
を利用できるようにします。次のツールにより、データの高品質
を維持し、時間とともに品質を高めることができます。
• FirstEigen DataBuck - ビッグデータとクラウドデータ
の品質の検証と調整を行う自律型および自己学習型のツー
ルです。これにより、データ整合性の検証と、オンプレミス
ソースとクラウド間の調整を行えることに加え、不良データ
にフィルターをかけ、適切な担当者にアラートを送信するこ
とで、制限を設けることができます。
• Informatica - データ管 理プラットフォーム、プラット
フォーム全体に適用するワンタイム定義ビジネスルール、
連絡先情報の検証、データ改良サービスなど、 Data as a
Service (DaaS) 製品のフルスイートを提供します。
• IBM - データクレンジング、データ品質の評価と監視、およ
び主要なエンティティの一貫したビューが可能なデータ品
質ソリューション (Infosphere、 BigInsights - BigQuality)
を提供します。
• SAS - データ品質に関する何十年もの経験を活かし、複数
のソース全体を一元管理できるビューで、問題の特定、デー
タのプレビュー、繰り返し可能なプロセスの設定を行える
ツールをユーザーに提供します。
クラウドで使用するデータ品質ツールでは、何よりもまず、デー
タボリュームの規模に比例して展開し、次に、複数の分析ツー
ルを同じデータセット全体でサポートするさまざまな統合手段
を維持する必要があります。
クラウドは、ビッグデータストレージと分析で効率性とアジリ
ティを向上させる新たなチャンスをもたらしますが、こうしたク
ラウドの新たな可能性を現実のものとするには、企業が、プロ
セス全体を通してデータ整合性を維持する必要があります。
2017 年春号 | THE DOPPLER | 33