ビッグデータの価値についての議論では、データの量が論点になることが多い。しかし、GFTからもはっきりと見て取れるように、データ量だけが増えても分析の質は上がらない。莫大なデータセットがあっても、その有効性は保証されないのだ。しかし量ばかりを重視する間違った前提は、ビッグデータの取り組みやその結果を正当化するのにしばしば使われている。「量こそすべてであり、よいデータを意味する」という根拠に基づく意見を、私はデータ・アナリストたちから頻繁に聞かされる。いわく、「検索市場でのグーグルのシェアは80%だから、他の検索エンジンの重要性は低く、無視してもいい」、あるいは「フェイスブックの会員数は10億人以上だから、実質的に“すべての人々”と言ってもいい」などだ。

 間違った前提は、いまに始まったことではないし、意外なことでもない。主流派の経済学者たちが不動産バブルを予測できなかったことを考えてみよう。彼らが論拠とする新古典派の経済モデルは、株価はあらゆる情報を織り込んで形成されるという効率的市場仮説を含むいくつかの前提の上に成り立っており、ポール・クルーグマンが指摘したように、「バブルは起きないという通説」もこれに起因していた。

 このような大失敗が生じた時、正しい答えを求めて私たちが考えるのは、対象となる物事がそもそもどう定義されているかである。ビジネスの世界におけるビッグデータの定義は、広く流布されたマッキンゼーのリポート("Big data: The next frontier for innovation, competition, and productivity")を基にしていることが多い。つまり「典型的なデータベース・ソフトウェアで収集・蓄積・管理・分析することが困難なサイズのデータセット」である。

 この定義がはたしてベストなのだろうか? GFTのようなプロジェクトの根底にあるデータと、私たちが5~10年前に使っていたデータの主な違いは何なのか。この質問をデータ・アナリストたちに尋ね、自分でも考えてみた。その結果、私が「OCCAM」と呼ぶフレームワークにたどり着いた。これはビッグデータの現状と、その背後にある前提を率直に評価した定義だ。

 ビッグデータとは――

●観測に基づいているObservational)
 新しいデータの多くは、特定の目的なしに無差別かつ継続的な観測を行うセンサーや追跡装置によって集められる。これは、アンケートやインタビュー、明確な目的のある実験などとは対照的である。

●管理されていない(Lacking Controls)
 ビッグデータは管理が及ばないことが多い。それが適切な比較や分析をより困難にしている。

●完全なように見える(Seemingly Complete)
 あらゆる測定単位のデータが入手可能で、その量はかつてなく膨大だ。しかし、データの増加に伴って誤解や行き詰まりも多くなり、予測を可能にする有益な構造を見つけるのが難しくなる。

●状況に合わせて変化が加えられているAdapted)
 データが第三者によって集められる時、その目的はデータ・サイエンティストの意図と無関係であることが多い。そのため、データを解釈する際に問題が生じる。

●統合されているMerged)
 複数の異なるデータセットが統合されている。ゆえに、定義の欠如や目的の不一致から生じる問題がより深刻になる。