Archive for ビッグデータ/IoT

RapidMiner World2014@ボストン

オープンソースのデータマイニング&ビジネスアナリティクス、RapidMinerのワールドカンファレンスに参加してきました。昨年はポルトガルでしたが、今年は彼らの本社をドイツから米国に移したこともあり、本社のあるボストンで行われました。旧来のRapidMinerを創業してきたマネジメントメンバーや開発メンバーに加えて、ビジネス推進する新たなマーケティングやセールスのメンバーも増えていて、フレンドリーな雰囲気を残しつつ成長の勢いを感じさせました。以下、簡単ながら報告です。

プレカンファレンス:前日にMeet Upと初心者のためのRapidMinerトレーニング&上級者向けのハッカソンが開催されました。

カンファレンスDay1

・オープニング:RapidMiner CEOのIngoによるご挨拶。GartnerでのLeader評価、コミュニティメンバーは25万人に増えた。RapidMinerの歴史と今後のVisionや間もなくリリースするCloudについて。

・Keynote:BigData and Old Data: Challenges of Embedding Predictive Analytics in Real Applications and Processes:Barcleys Bankチーフデータオフィサー Usama Fayyad氏による基調講演、ビッグデータやチーフデータオフィサーの説明、Hadoop

・Case Study:Modern Marketing Concept、 コンサルタントBrian Tvenstrup氏によるクロスセルとレコメンデーションの実務事例の紹介

・Case Study:Dataminig for the massesの著者、Matthew Northk教授によるRapidMinerを使った学生へのデータマイニングの教育の紹介

・Case study:RapidMinerコンサルタント Tong Ji氏によるBIがどのようにPredictive Analyticsをサポートできるか

・アナリストセッション:アナリティクス分野のアナリストJohn Mayer氏による地域ごとの分析ニーズの違いや各ベンダーのアプローチなど

・パネルディスカッション:CEO Ingo, John Mayer, Microsoftの技術コミュニケーション管理部門ディレクターCathy Wissik氏によるビッグデータの活用、プライバシーの問題、データ分析の教育についてなどの対談、ディスカッション。

・Technicalセッション:1)Belgrade大学の方によるメタヒューリスティックベースの最適化、Extensionの紹介、2)Cork技術大学、Daryl O’Toole氏による気象データとマイクロ波通信ネットワークの関係、故障予測

その後、みんなでBostonダックツアー(水陸両用バス)とSeaport HotelでDinner

 

カンファレンスDay2

・Keynote2:Intelのパテント管理マネージャーMichal Skinner氏による特許情報のマイニング、エジソンのパテントレコードを例にしたSemantic Text、Patent Search,Visualizeの紹介

・RapidMiner RoadMap:Chief Product Officer Giuseppeによる今後のRapidMinerの紹介。キーワードは、Accelerate(より速く), Connect(より他のデータソースにつながり), Simplify(より簡単にする)こと。2014年テーマはCloud Analytics, All data&All enrironment、2015年はPrescriptive Analytics、High-performance Analytics、2016年はWeb Enablementを行う。

・Case Study:ALVIA Tech Kleber氏、医療ヘルスケア業界における不正検知の事例

・Partner session1:金融コンサルタント S.McGover氏によるFinancial Analytic、昨年のポルトでも発表したNASDAQやFEDデータ取得のRapidMinerAPIの紹介

・Partner session2:David WeismanによるPrescriptive Analyticsの紹介、今回のセッションの中で一番示唆に富んでいた。ハイプサイクルの初期の段階であり、今後ブレークする可能性もある。Predictive Analyticsをさらに一歩進めた考え方。IBM(CPLEX)などベンダーもまだ対応はこれから。同様のツールには原始的なものとしてはExcelのSolverがある、洗練されたものとしてはOR専用ツール(プログラム)があるが、汎用的なツールはまだない。RapidMinerはこのホワイトスペースを埋めれるのではないかというもの、実際にExtensionも紹介された。(MarketPlaceでDLも可能)

・RapidMiner with Hadoop, お馴染みZoltanによるRadoopの紹介、今回RapidMinerとの経営統合により正式にRapidMinerのVPとなった。

・Simon Ficherによる間もなく公開されるRapidMiner Cloudのデモ

・Game show:参加者によるRapidMinerを使った公開ゲーム

・CEO IngoによるEnding remark

 

参加国は20か国に及びアメリカ以外にもEU諸国、アジアからはインド、韓国、日本からパートナーが参加しました。製品自体は十分に普及していっています。あとはいかにビジネスをドライブしていくかが課題だと思います。しかし十分な資金と知名度を得たことで優秀な人材が集まってきており、今後のさらなる成長の予感を感じさせました。我々も日本パートナーとしてさらなる支援を続けていきたいと思います。

 

 

 

Revolution Analytics社との協業を行いました

統計解析ソフトウェアのデファクトスタンダードともいえる、オープンソースR(アール)。こちらの企業向け高性能な解析エンジンを提供するRevoluton Analtyics社との協業を行い、日本市場で提供を開始しました。日本語サイトを開設しています。

詳細はプレスリリースをご覧ください。

田んぼと数学テスト(Rice Paddies and Math Tests)

Malcom Gladwellの「Outliers」を読みました。Amazonの社会心理学分野で1位になっているベストセラーですので、読まれた方も多いかもしれません。Outlierとは、統計的には異常値を指しますが、転じて「桁外れなパフォーマンスを出す人」の意味でつかわれます。この本では、ビル・ゲイツやビートルズ、モーツアルトから、トップアスリートなど、一般的に桁外れのパフォーマンスを出す人の要因を、分かりやすい記述と例示により示しており、とても面白いです。

その中の第8章で、田んぼと数学テスト(Rice Paddies and Math Tests)がありました。これは”なぜアジア人が数学スキルが高いのか”を考察しています。事実、国際数学・理科教育調査(TIMSSなどでも、シンガポール、香港、韓国、台湾、日本などが上位にきます。なぜでしょうか?

もちろん諸説あるとは思いますが、Gladwellは稲作の文化との関連性を説明します。東洋は基本的に何百年、何千年にもわたり、米が中心の文化を形成してきました。米作りは他の穀物作りに比べて大きな違いがあります。まず田んぼは、Open Up(切り開く)ものではなくて、Build(作り上げる)もの。固い土の上に柔らからい泥を平坦に延ばし泥田を作ります。また肥料もやり過ぎてはだめ、足りなくてもだめ。水の量も調整が必要です、灌漑設備も必要になります。天候も考慮して作業を進めなければなりません。非常に手間がかかります。西洋の農業は、広大な土地に種をまき、一気に収穫する効率重視型です。そのために作業を効率的に行うマシーナリー(機械)が発達しました。東洋の田んぼはSkill Oriented(スキル重視)型です。ホテルの部屋のような小さな田んぼで、収穫高を上げるために、知恵を絞って工夫をします。そのためには労を惜しまず退屈な作業にも耐えます。

またそのモチベーションも異なります。英語にPeasantという表現があり「小作人」と訳されますが、西洋と東洋ではそのニュアンスが若干異なります。西洋においては、小作人は労働のみを提供する人であり、その人がどのような成果を出しても取り分は変わらないのに対し、東洋での小作人は、基本的にその田んぼのマネージャーです。より良い収穫ができればその分だけ自分の取り分が増えます。そのために頑張ろうというインセンティブが働きます。

数学においても、この退屈な作業に耐えて、喜んでハードワークを行うことが大きな要素になります。GladwellによるとTIMMSのテストの結果とテスト終了後のアンケートへの回答率(アンケート内容ではなく30個の質問にいかにまじめに答えているか)は非常に高い相関があります。もちろんこの回答率が高いのは、シンガポール、香港、韓国、台湾、日本です。

こうして見ると、我々は先人から大きなGiftをもらっていることになります。Skill Orientedな文化のおかげで現在では、米ではなくモノづくりにおいて、大きな経済発展を得ることができたといえます。こうした小さなリソースを上手く活用し、工夫によって生産性を上げていくことは、我々東洋人(日本人)にとって得意なところです。

私は同じことがデータ分析にも言えると考えます。問題点に気づき→データを分析し→現場に浸透させて生産性を上げていくプロセスは、日本のホワイトカラーにとって難しいことではありません。アナリティクスという概念自体は、西洋から入ってきたものかもしれませんが、我々はそれらを上手く活用し、成果を上げることに知恵と忍耐と使うことができます。そのためにも、日本のビジネスマンが今のExcelのように統計・データマイニングツールを当たり前に使える環境や仕組みを作っていきたいですね。実現すればすごく面白そうなイノベーションが起きそうです。これはオープンソースの分析ツールを提供するKSKアナリティクス使命のようにも思います。

 

Nysolプロジェクトと協業を発表しました

先日Nysolプロジェクトとの協業をプレスリリースしました。プレスリリース本文はこちら

Nysolは、関西学院大学の羽室先生が中心となった進めておられる大規模データ処理・分析のためのソフトウェア群です。羽室先生は、先進的なデータ分析で数々の国家プロジェクトに参画されたり、必要ツールを実際に開発(オープンソースMusashiやKGMODなど)多方面に活躍されています。

実は、私が初めてデータマイニングを学んだのも、関学MBAの羽室先生のデータマイニングの講義でした。もう7-8年ほど前になります。当時は、KSKを創業したばかりで、すでに海外でMBAは取得していたものの、このデータマイニングの講義を取りたいがために、関学MBAに再度入学しました。(先日その時の小論文が机の中から見つかりました。こちらです、まだビッグデータという言葉が一般的でなくデータ爆発と記述しています。) 受講した授業自体も素晴らしかったのですが、日本にも自ら高度な分析を行いながら、ユニークなアルゴリズムやツールを開発される方がおられるんだと、カルチャーショックを受けたことを覚えています。

今回、Nysolプロジェクトとして、今までの大規模データ処理や分析のノウハウが、さらに強化され、そしてオープンソースとして公開されました。その中でも、核となるMCMD(Mコマンド)は当社のお客様でもその性能が評価されており、商用データベースを使って20時間ほどかかっていた処理が、わずか1時間で完了したケースもあり、今後の本格的なサービス提供に期待の声を寄せていただいています。

今後は、日本の中での成功事例を作るとともに、この日本発の素晴らしいオープンソースを世界に提供していく支援をさらに促進したいと思います。

 

RCOMM2013@ポルトガル


2013年8月27日~8月30日、ポルト大学(ポルトガル)でRapid-Iのカンファレンス、RCOMM2013が開催されました。RapidMinerのパートナー、大学の研究者が一堂に会するこの機会に、KSKアナリティクスからも今回2名が参加しました。

EUを中心に世界20か国、約70名が参加したこの会議では、製品トレーニングに加え、データマイニングに関する様々な研究発表が行われました。

以下、その概要を簡単に記載します。

【Day1: トレーニング&チャレンジ】
RapidMinerの紹介、トレーニングとチーム別れた分析コンペティション、優勝チームにはiPadミニプレゼント

【Day2: カンファレンス1日目】
Introductory Speech
CEOのIngoのスピーチでカンファレンスが始まりました。

Keynote:Mining Highly Imbalanced data with RapidMiner
BostonのITコンサルタント David Weismanによる基調講演、教師データのなかにわずかしかないPositiveなデータにどのように対処するか(etc ダイレクトメールでの1%以下の反応)、非常に示唆に富み、実務的な内容でした。

Radoop
Radoop社のCEO Zoltanのスピーチ、Hadoopを使用した分散コンピューティングとRapidMinerを使用したデータマイニングの融合。

RapidMiner Extention for OpenML
Open Machine Learning(openml.org)の紹介。分析データセットを検索し、RやRapidMinerをOSSを使って分析を行い、その結果を他者と共有できる。大学を中心に連携が進められている。コンセプトが進歩的で素晴らしい。

その他、ユニークで新たなExten(拡張機能)の発表。
・スプレッドシートのリンク機能(リアルタイム読出、書込)
・Rapid Extension開発(RMD、eclipseのプラグイン、restartを省いて生産性Up)
・音声マイニング機能
・画像マイニング機能
・UX タブレット等でRapidMiner

RapidMiner Book
・10月に出るRapidMinerの本の紹介
・ゲームショー(RapidMinerを使ったハッカソン)

ネットワークイベント:ポルトのワインセラー訪問とディナー

【Day3: カンファレンス2日目】
医療分野でのRapidMiner
・遺伝子クラスタリングでのメタ学習
・RapidMinerを使った心臓音の分類
・肺がん診断にはデータサイズが重要か?

マーケティング分野でのRapidMiner
・ブランドに対するSentiment Analysis(評判分析)
・RapidMinerを使ったルールベースの顧客の不満の自動検知
・クラスター分析結果のビジュアリゼーション
・dating(お見合い?)産業におけるターゲット顧客の決定木分析

金融分野でのRapidMiner
・Rapid Finance(BloomburgやFREDdata)などを使った株価予想
・FOREX(為替取引)分野でのRapid Analyticsを使った自動取引

地理情報でのRapidMiner
・IMMI地理メタシステムとの連携、衛星画像による予測分類

Rapid-I社Laboより
・IP-TVによる視聴率のリアルタイム分析
・SUSTAIN HUB – Lucene/Solrを使用したWebクローリングと有害物質の判別分析
・農業分野でのGreenhouseデータマイニング

製造分野でのRapidMiner
・Miele社のアッセンブリラインの改善
・ダイムラー社トラック部門での改善

新バージョンRapidMiner6の情報:
より使いやすく進化、コミックスタイルのスタート画面、結果表示とチャートの追加、新たなExtension、Java7&Jboss7、Git、2013年末リリース予定。

ネットワークイベント:S.JoaO Fort(ポルトのお城)訪問とディナー

【Day4: 上級トレーニングと試験】
Visual Miningトレーニング、イメージデータを使用したデータマイニング
Rapid-Iアナリスト認定試験

Rapid-Iメンバーだけでなく、大学の研究者、コンサルタントなど多彩なメンバーがプレゼンテーション、議論を行い、今後のコラボレーションの話が行われました。
RapidMinerは単なるデータマイニング・ツールを超えて、データ分析のための共通基盤になってきていることを実感しました。RapidMinerを中心にエコシステムが形成され、いろんなイノベーションが起き始めています。

次回、Rcomm2014は、初めてEUを出て米国Bostonで夏に開催されます。KSKアナリティクスも来年はプレゼンテーションに参加する予定です。これを読まれている日本のデータ分析者、開発者、大学の研究者の方、企業or個人のコンサルタントの方、ぜひ参加を検討してみてください。一緒に行きましょう!きっと新たな刺激や出会いを得られると思います。

データサイエンティストに必要なスキル、IT+統計+ビジネス、さらに語学

最近、データアナリストやデータサイエンティストの数が足りないなどの記事が多くあります。これは日本だけではなく、グローバルで同じ傾向があり、企業や大学などを含めてこうした人材を育成していこうとする動きが活発です。

個人的には、データ分析に関わる人や成功例が増えて、市場が大きくなるのはとてもうれしいことです。またそういうシーンに主体的に関われる状況にあることにワクワクします。

海外でも大学が無料で公開するデータサイエンティスト養成講座が増えました。KSKアナリティクスのメンバーも一部受講していますが、特に結構質の高い内容で「えっ、これが無料!」と驚いてしまいます。

Courseraのデータサイエンティストコース
https://www.coursera.org/course/datasci

udacityの統計コース
https://www.udacity.com/course/st095

North Western Univの予測分析(これはMasterコースなので有料)
http://www.scs.northwestern.edu/program-areas/graduate/predictive-analytics/

 

データサイエンティストに求めるスキルとして、最近は特に1) ITスキル、2) ビジネススキル、3) 数学統計スキルの3つが必要といわれています。さらに我々日本人にとっては、4)語学スキルが必須と思います。なぜなら、特にITや統計分野の情報量は圧倒的に、英語のものが多く、また優良な書籍やソフトウェアもほとんどが英語で書かれているためです。

第一線のデータサイエンティストには、上記3つのスキルを補強するための語学、コミュニケーションスキルが必要となると思います。

たしかに、今は上記を兼ね備えたスーパーマンは数少ないかもしれませんが、数年先にはかなり多くのデータサイエンティストが増えてくると思います。例えば、我々がやっているオープンソースのデータマイニングソフト RapidMinerのダウンロードが最も多い国は、実はアメリカではなくインドです。オープンソース・ソフトウェアや数学統計には国境はありません。個人の能力がそのままダイレクトに成果に結びつく世界です。

データサイエンスの分野でもグローバル競争は、どんどん起こってきます。でも私は悲観していません。日本人には語学のハンデはあるものの、コツコツと作業を行う勤勉さとユニークな創造性があります。日本初のアナリティクスをもっと世界に発信していきたい、最近特にそういう想いを強くしています。

 

2013年にビッグデータ関連分野で起こりそうなこと

2012年は、日本でも本格的にHadoop導入が進んだことを実感した1年でした。2013年は、さらにビッグデータ周辺でさらにいろんなイノベーションが起こりそうです。起こりそうなことを書きたいと思います。

1.Hadoopのリアルタイム化が進む

先日ビッグサイトで行われたHadoop Conference Japan2013でもHadoop生みの親Don Cutting氏がメッセージをしていました。Hadoopをデータウェアハウスとして利用するために課題になってくるのは、レスポンスです。Map/Reduceの場合、どうしてもレイテンシーの問題が起きます。2013年は、このあたりを解決するソリューションがいろいろと出てきそうです。dremel論文やSpanner論文をもとにしたImpalaDrillなどのテクノロジーがより一般的になるものと思われます。

2.クラウドベースのビッグデータソリューションがいろいろ出てくる

amazonのElastic Map Reduceが、これの走りだと思いますが、EMRではすべてを網羅することはできません。弱点を補うさまざまサービスが一般的になると思います。Amazon自体も2012年11月にクラウドのDWH、Redshiftを発表しました。特に欧米でこうしたベンチャー企業が多くでてきており、今後が楽しみです。個人的には、同じ日本人のベンチャー企業であるTreasureDataさんに頑張ってもらいたいですね。

3.データマイニング&アナリティクスOSSの成長

統計のRはすでに有名ですが、HadoopファミリーであるMahautも、さらに使われるようになるかと思います。またこの技術的なハードルを下げるオープンソースのデータマイニングRapidMiner、Hadoopとの連携を行うRadoop(Rapid Miner+Hadoop)も成長すると思います。日本でも分散&リアルタイム機械学習のOSS Jubatusが2011年に公開され注目されています。さらに使用例が増えてくるものと思います。

このように見てみると、今年は、さらに「ビッグデータ」、「クラウド」、「オープンソース」がキーワードになるように思います。どのようなイノベーションが起きるか楽しみです!

 

 

 

 

データマイニングとアート

東大寺南大門 金剛力士像【吽形・運慶】

私は美しいものが好きです。
美しい音楽、美しい絵、美しいデザイン、美しい夕焼け。。。。

美しいデータ、私はこれも好きです。
一見無関係なような数字の羅列、しかしよく観察すると、そこには規則性のあるルールが存在する。こうしたものを見つけた時にゾクゾクします。これを行う技術がデータマイニングです。

データマイニングは彫刻にも例えられます。
漱石が夢十夜で書いたように、仏師・運慶は木を彫り刻むのではなく、木の中に埋まっているものをまるで土の中から石を出すように鑿(のみ)と槌で掘り出しました。

データマイニングにおけるモデル(分類器)も、これと同じで、データの中からルールを取り出します。

性能の良い分析モデルは、美しいルールを導き出してくれます。しかしこの分析モデルを形作るのは人です。その人の経験やセンスにより多分に結果が左右されます。そのため、データマイナーはある意味アーティストと言えると思います。

私の知り合いのデータ分析者の方にも、絵画や音楽が好きな方が多い気がするのは偶然でしょうか?