Archive for 2013/11/26

データ・ブレンディング (Data Blending)

データ・ブレンディングとは、さまざまなデータソースを文字通り混ぜ合わせることです。最近リリースされたPentaho5.0ではまさにこれが強化されています。

・従来の分析環境の問題
Pentahoデータ統合のChiefであるMatt Casterは、データブレンディングを、データ統合ユーザーが他の分析ツールに直接データを提供する機能として提唱・実装しています。従来、データはRDBを通して分析ツールに提供されるものでした。しかし、巨大なデータボリュームに対応できない、DBテーブルが更新されるまで待たなければならないなど、多くの問題が出てきました。

これらは、複雑なビッグデータのアーキテクチャの問題(Hadoopクラスター、NoSQL、RDB技術、ETLツール、データマートに伝統的なBIツールetc)に起因しています。それら必要なものをすべて一式で提供し、データの品質な粒度に応じてブレンドすることが大変重要になっています。

・データ統合(ETL)とSQL
今日のデータ統合(ETL)は、増え続ける複数のデータソースからデータを読込みことが求められます。データベースやスプレッドシート、NoSQLやビッグデータソース、XMLやJSONファイルやWebサービスなど。今までは、データ統合(ETL)によりデータウェアハウス(通常はRDB)にロードされてきました。

SQLは、それ自体がミニETLともいえます。選択、フィルター、カウント、集計などが可能です。ユーザーは、BIツールから吐かれるSQLで自分のほしい情報を取得してきました。しかし、前述のような問題があり、単一のRDBにデータをストアできなくなってきています。

そこで、Matt Catsterが提唱するのが、Pentahoデータ統合によるデータブレンディングです。
“So we figured that it might be easiest if we would translate the SQL used by the various BI tools into Pentaho Data Integration transformations. This way, Pentaho Data Integration is doing what it does best, not directed by manually designated transformations but by SQL. In other words: We made it possible for you to create a virtual “database” with “tables” where the data actually comes from a transformation step,”
(さまざまなBIツールをPentahoデータ統合のデータ変換の中に入れて、SQLを翻訳するのがユーザーにとって最も簡単な方法だと気付いたんだ。これによってPentahoデータ統合はマニュアルで作成されたデータ変換によって動くのではなく、SQLによって動く。言い換えれば、我々は、バーチャルな”テーブル”付きの”データベース”をデータ変換のステップからくる実際のデータで作れるようにするんだ。)

 

新たにリリースされたPentaho Business Analytics 5.0では、ソースレベルでデータブレンディングを行えるようになっており、適切なデータセキュリティとガバナンスが行えるようになっています。

ぜひ新しくなったPentaho5.0を試してみてください。

http://www.pentaho-partner.jp/

 

シンガポール

 

シンガポールに行ってきました。約10年前にマレーシアに行くときに経由して以来です。今回は、現地のパートナーとのミーティングがメインでした。来年にかけて新たなプロダクトを展開する予定です。また時期がきましたらご案内したいと思います。

シンガポールは、コンパクトにまとまっており、治安もよく法整備も進んでおり、ビジネスするには最適な場所ですね。ASEAN各国にも近いですし、日系企業の進出が多いのもうなづけます。中国系を中心にインド系、マレー系、欧米系の多様な人種構成で活気があり、アジアの元気さを実感できました。