以上、非常に厳しい定義であるが、ビッグデータの現状に対する真摯な評価でもある。ただし、先述したサイエンス誌の記事とOCCAMフレームワークを、ビッグデータに「価値がない」証拠として用いるのは論外である。率直な評価は、ブームを煽るのではなく、まっとうな進歩と規律の促進を意図してのことだ。

 OCCAMのデータを生成・処理する企業が、自社の能力を誇張するのをやめて結果を正しく測定するようになれば、ビッグデータは進歩し始めるだろう。サイエンス誌でこの難しい問題を提起した研究者たちの勇気は、称賛に値する。GFTのアルゴリズムを正しく判断し複製することがいかに難しいかを詳述することで、彼らは科学界の発展に貢献した。GFTのアルゴリズムについて発表されている情報が不完全で間違っていることも発見した。学会に共通する控えめな表現で、彼らはこう述べている。「不思議なことに、(グーグルの研究者らが発表したアルゴリズムについての)論文に記載されていた検索ワードのいくつかは、GFTともCDC(米国疾病対策予防センター)のデータとも関連性が弱いように見受けられた。特定された実際の検索ワードを伏せたいという暗黙の意図が著者側にあったのではないかと、我々は推測する」

 GFTの公表データは、情報の秘匿と偽造に基づくものなのか。それとも、かつてもてはやされた予測モデルが正確でなくなったのは、ほんの数年前までインフルエンザを最も予測していた検索ワードの有効性がすでに失われているからなのか――。グーグルには、それを私たちに説明する義務がある。科学に関与したいと望む企業は、科学者のように振る舞わなくてはならない。

 ハーバードの研究者らと同じように、私もアナリティクスの可能性に興奮を覚えている。しかし同時に、この業界に属する全員がみずからの信念と行動を一致させ、成功と失敗を正直に自己評価してほしいとも思う。それが実現するまでの間、専門家でない人々に求められるのは、OCCAMフレームワークが示すようなビッグデータ分析の問題点を注視し、分析結果の解釈には大いに慎重を期すことである。


HBR.ORG原文:Google Flu Trends’ Failure Shows Good Data > Big Data March 25, 2014

■こちらの記事もおすすめします
その予測は、どれぐらい正確か 普通の人たちを予言者に変える「予測市場」という新戦略
正しいアナリティクスを行うための3つのポイント
データ分析ができないなら、ビッグデータを集めない方がいい

 

カイザー・ファング(Kaiser Fung)
統計学のプロフェッショナル。マーケティングと広告に統計を適用する専門家。現在は動画共有サイトVimeoで統計を担当。ニューヨーク大学で統計学の非常勤教授。マスメディアに登場するデータやグラフィックを批判的に検証する人気ブログ、Junk Chartsを執筆。著書に『ヤバい統計学』(阪急コミュニケーションズ)などがある。