データサイエンティスト、それも特に優れた人材は、好奇心にあふれている。明確な目標に向けて仕事をし、特定の業績指標の達成に重点を置き、責任をもっている。

 だが、(よい方向にではあるが)たやすく気の散る人たちでもある。仕事に取り組む過程で、データの探索中にさまざまなパターンや現象、例外に出くわし、これがデータサイエンティストの好奇心を駆り立てるのだ。

「顧客のスタイルを特徴づけるのに、もっとよい方法はあるだろうか」「服のフィット感を距離尺度としてモデル化したら、顧客の使い勝手はよくなるだろうか」「これまでのスタイルで成功した特徴を再編成して、よりよいものを生み出せるだろうか」

 このような疑問に答えるために、データサイエンティストは過去のデータで、あれやこれやと試し始める。彼らは許可を求めない。場合によっては、答えはわずか数時間程度ですぐに見つかる。あるいは、それぞれの答えが新たな疑問や仮説を提起して、さらなる検証や学習につながり、もっと時間がかかることもある。

 彼らは時間を浪費しているのだろうか。そうではない。

 データサイエンスは、迅速な探索が可能なうえ、その探索の価値を測定するのが、他の分野と比べて比較的容易である。AUC(曲線下面積)や、二乗平均平方根誤差(RMSE)、決定係数(R2)といった統計尺度は、データサイエンティストの探索がもたらす予知力の大きさを数値で示してくれる。

 このような尺度とビジネス背景の知識が組み合わさって、データサイエンティストは、自分の新たな知見を活用しているソリューションの実現性と影響のポテンシャルを査定できる。そこに何も見つからなければ、それで終わりだ。

 しかし、説得力のあるエビデンスや大きなポテンシャルがある場合には、データサイエンティストは、ランダム化比較対照試験やA/Bテストのような、因果関係のエビデンスを示してくれる、より堅牢な手法へと移行する。自分の新たなアルゴリズムが実際にどのような働きをするかを確認するため、試験的に少数の顧客に適用するのである。

 アルゴリズムがクライアントの体験と業務指標を改善してくれることはすでに確信しているが、どの程度かを知る必要がある。実験が十分に大きな利益を生んだのならば、そのアルゴリズムをすべてのクライアントに向けて展開する。場合によっては、新たな知見の周囲に堅牢なケイパビリティを構築するために、さらなる作業が必要となるかもしれない。

 ここまでくるとまず間違いなく、「片手間仕事」と見なせる範疇を越える。データサイエンティストは、エンジニアリングやプロセス変更のため、他の職種の人と協働する必要が出てくるのである。

 ここでカギとなるのは、誰かがデータサイエンティストに、これらのイノベーションを見つけるよう、頼んだわけではないことだ。

 データサイエンティストは説明できない現象を見つけ、直感を得て、ティンカリングを始める。彼らが探索する許可を求める必要がないのは、探索を実行に移したところで比較的低コストだからだ。許可を求めていたとしたら、幹部やステークホルダーはもしかしたら「ノー」と答えたかもしれない。

「低コストの探索」と「結果を測定する能力」という2つの要素により、データサイエンスは他の事業部門と一線を画している。

 他の部門も好奇心は旺盛だ。マーケターであれば、「この手の広告に、クライアントはもっとよい反応を示すか」を知りたいだろう。製品マネジャーは、「新しいユーザーインターフェースは、より直感に訴えるかどうか」を知りたいかもしれない。

 だが、このような疑問に過去のデータから答えを見つけることはできない。こうした疑問の答えを探索するには、実際に何かをつくってみる必要があり、コスト高となる。そして、アイデアが正しいことを示すエビデンスがないため、そのようなコストをかけることを正当化するのは往々にして困難だ。

 データサイエンスの場合には、低コストの探索とリスクを低減してくれるエビデンスのおかげで、さまざまな物事を試すのが可能であり、それがさらなるイノベーションへと導くのである。