ビッグデータの時代に
一番欠けているのは人財である

2

 キュレーターとは、もともとは博物館の学芸員を指す言葉である。彼らは、発掘などで得られた多くの遺物の中から、展示に適するものを選び出し、それらを修復し、あるストーリーにそって展示するのである。最近は、インターネット上で、多くのブログ等から関連するものを選んで「まとめサイト」を作る人をデジタル・キュレーターと呼ぶこともある。データについても同様である。多くのデータセットの中から、役に立つものを選び出し、それらを必要ならば修復し、分析アルゴリズムにかける役割がデータ・キュレーターである。

 過去において、データは常に希少な資源であった。科学者は、手に入るデータはすべて使って、できるだけ精緻なモデルを構築することを試みていた。しかし、センサーとITの発達によって、我々には非常に大量の生データが手に入るようになった。センサー・データには、欠測値や外れ値が含まれることは普通のことである。また、異なる条件下で収集された複数のデータセットを統合する場合には、それらのバイアスを修正しなければならない。さらには、データのフォーマットや単位系の変換、データ項目の意味の関連付けなど、目的に応じて、どのデータに、どのような前処理やクレンジングを施して使うか、というノウハウが重要なはずだ。この、データの選択・前処理・クレンジングなどを行なうのが、キュレーションである。

 データ・キュレーターはまだあまり注目されていない職種である。しかし、今後ビッグデータの時代になって非常に多く必要とされる役割となるだろう。

人財育成には産官学の連携が不可欠である

 米国・中国・韓国を始めとする各国の大学には、統計を専門とする専攻・学科が数多くあるが、残念ながら日本には統計を専門に研究・教育する専攻は1つ(統計数理研究所)しかない。産官学が協力して、データ分析の専門家の層を厚くする取り組みが必要である。統計数理研究所では、データに基づく意思決定ができる人財を輩出するために、「統計思考院」を開設し、人財育成に力を入れている[5]

 

 

[参考文献]
[1]New York Times, August 5, 2009.
[2]Thomas H. Davenport and D.J. Patil, “Data Scientist: The Sexiest Job of the 21st Century,” Harvard Business Review, Oct., 2012. 邦訳「データ・サイエンティストほど素敵な仕事はない」,『DIAMONDハーバード・ビジネス・レビュー』2013年2月号.
[3]Insight Data Science Fellows Program, http://insightdatascience.com/.
[4]Tony Hey, The Fourth Paradigm: Data-intensive Scientific Discovery, ISBN-13: 978-0982544204, 2009.
[5] 統計数理研究所 統計思考院, http://www.ism.ac.jp/shikoin/index.html.


今月のDIAMONDハーバード・ビジネス・レビュー