データ・ブレンディング (Data Blending)

データ・ブレンディングとは、さまざまなデータソースを文字通り混ぜ合わせることです。最近リリースされたPentaho5.0ではまさにこれが強化されています。

・従来の分析環境の問題
Pentahoデータ統合のChiefであるMatt Casterは、データブレンディングを、データ統合ユーザーが他の分析ツールに直接データを提供する機能として提唱・実装しています。従来、データはRDBを通して分析ツールに提供されるものでした。しかし、巨大なデータボリュームに対応できない、DBテーブルが更新されるまで待たなければならないなど、多くの問題が出てきました。

これらは、複雑なビッグデータのアーキテクチャの問題(Hadoopクラスター、NoSQL、RDB技術、ETLツール、データマートに伝統的なBIツールetc)に起因しています。それら必要なものをすべて一式で提供し、データの品質な粒度に応じてブレンドすることが大変重要になっています。

・データ統合(ETL)とSQL
今日のデータ統合(ETL)は、増え続ける複数のデータソースからデータを読込みことが求められます。データベースやスプレッドシート、NoSQLやビッグデータソース、XMLやJSONファイルやWebサービスなど。今までは、データ統合(ETL)によりデータウェアハウス(通常はRDB)にロードされてきました。

SQLは、それ自体がミニETLともいえます。選択、フィルター、カウント、集計などが可能です。ユーザーは、BIツールから吐かれるSQLで自分のほしい情報を取得してきました。しかし、前述のような問題があり、単一のRDBにデータをストアできなくなってきています。

そこで、Matt Catsterが提唱するのが、Pentahoデータ統合によるデータブレンディングです。
“So we figured that it might be easiest if we would translate the SQL used by the various BI tools into Pentaho Data Integration transformations. This way, Pentaho Data Integration is doing what it does best, not directed by manually designated transformations but by SQL. In other words: We made it possible for you to create a virtual “database” with “tables” where the data actually comes from a transformation step,”
(さまざまなBIツールをPentahoデータ統合のデータ変換の中に入れて、SQLを翻訳するのがユーザーにとって最も簡単な方法だと気付いたんだ。これによってPentahoデータ統合はマニュアルで作成されたデータ変換によって動くのではなく、SQLによって動く。言い換えれば、我々は、バーチャルな”テーブル”付きの”データベース”をデータ変換のステップからくる実際のデータで作れるようにするんだ。)

 

新たにリリースされたPentaho Business Analytics 5.0では、ソースレベルでデータブレンディングを行えるようになっており、適切なデータセキュリティとガバナンスが行えるようになっています。

ぜひ新しくなったPentaho5.0を試してみてください。

http://www.pentaho-partner.jp/

 

Comments are closed.