適切なデータ分析アプローチを
選択せよ

2

 このようなデータ分析は自動化するのは難しい。何が「面白い」発見であるかを予め決めておくことは、その性質上困難だからだ。面白さを決めるのは多くの場合人間であり、そのため、Descriptiveなデータ分析は通常は人間と機械の協調作業となる。統計データ分析パッケージで各社がデータの視覚化に力をいれているのはそのためだ。

 逆に、これらのツールを使いこなす人間の側に要求されるのは、データの裏にあるストーリーを描き出してみせる想像力だ。かつて筆者がセキュリティのコンサルタントをしていたときに、攻撃を受けたあるサイトの調査を依頼されたことがあった。大量のログデータを分析し、攻撃者がいつどのような方法で攻撃を行い、どれだけの機密情報を盗み出したかを再構成するのは、想像力を働かせて仮説を立て、それをデータで検証する、という作業の繰り返しであった。

2. 予測的データ分析(Predictive)

 「ある日にビールを買った人が400人、オムツを買った人が350人いて、そのうちの300人はオムツとビールの両方を買った」という面白い事実を教えてくれるのはデータ・マイニングである。しかし、別の日にビールを買う人が250人になったら、どうだろうか? 1000人になったら? それらが30代の男性だったら? ビールを買う人に関するパラメターに対して、それらのうちの何人がオムツを買うか、という予測をする数式を立てることは、予測的データ分析である。

 データ・マイニングは確かに何か面白い事象をデータの中から探してきてくれるが、そのような事象が常に起きるかどうかについては、語ってくれない。あくまでも過去に起きたことを見せてくれるだけである。将来に何が起きるか、このまま行くと中南米の市場シェアは下がるのか、あるいは生産力を増強すれば利益があがるのか、そういうことをあなたは知りたいだろう。このためには、過去のデータから法則性を導き出し、それを使ってまだ見ぬデータを推測するしかない。この「法則性を導き出す」ことを統計の言葉で「モデル化」という。回帰分析など多くの統計の手法は、このモデル化そのものである。

次のページ  究極の目的は、よりよい予測につなげること»
今月のDIAMONDハーバード・ビジネス・レビュー