このデータはどこから来たのか?

 データとは、2つ以上のエピソードだと言われる。取引や診断など現実世界におけるイベントは、巨大なサーバファームに蓄積され、保管されている。しかし。そのデータがどこから来たのか問いかける人はほとんどいない。

 だが、データの質と、どのような注意を払って取り扱われてきたかには、大きなばらつきがある。ガートナーの最近の研究によると、データの質が悪いために、企業が1年間に被る損失は平均1500万ドルにも上る。

 データは、人間のミスによる影響も受ける。これは小売店の、低賃金でやる気のない店員が在庫チェックをしたときなどに起こりやすい。しかしデータ収集プロセスが自動化されていても、エラーが生じる余地はたくさんある。たとえば、スマートフォンの電波塔の断続的な停電や、金融取引の決済処理ミスなどがあるだろう。

 質の悪いデータや、間違ったコンテクストで使われているデータは、データがないよりも悪い結果をもたらしかねない。小売店の在庫データの65%は不正確だという研究結果もあるほどだ。また、欧州連合(EU)が厳格な一般データ保護規則(GDPR)を採択して以来、重要になってきたのだが、データ収集時に適切な同意があったかという問題もある。

 そのため目の前のデータが正確で、質が高いと思い込まないほうがいい。その出所はどこで、どのように管理されてきたのかを問いかける必要がある。金融取引と同じくらい、データ取引を注意深く監視する必要があるのだ。

どのような手法で分析されたのか?

 データが正確で、きちんと管理されていたとしても、分析モデルの質は一定ではないことが多い。ギットハブ(GitHub)のような、オープンソースのソフトウエア開発プラットフォームで見つけたモデルを、特定のタスク向けにいじっただけの分析モデルもある。それなのに、しばらくすると、そのモデルをどこから持ってきたか、あるいは、それがデータセットをどのように分析しているかは、すっかり忘れられてしまう。

 このように、いつのまにか忘れられてしまう問題は意外に多く、深刻なダメージにつながりかねない。かつて2人の著名経済学者が、米国の債務は壊滅的なレベルに達しつつあると警告した研究論文がよい例だろう。この論文は、政界に激しい論争を引き起こしたが、実のところエクセルの計算式にミスがあったために、債務が国内総生産(GDP)に過大な影響を与えるように見えていたことが判明した。

 分析モデルが高度になり、組み込まれるデータソースが増えると、そのモデルがどのように訓練されているかも大きな問題になってくる。最もよくあるミスは、過剰適合だ。これは基本的に、モデルをつくるときの変数が多すぎると、そのモデルの有効性が低下することを意味する。過剰なデータはデータ漏出につながり、訓練用データと検査データが混ざってしまうこともある。

 この種のミスは、トップレベルのテクノロジー企業さえも苦しめることがある。有名な例を挙げると、アマゾングーグルは最近、モデルバイアスが関係する不祥事に見舞われた。

 データを処理するときは、そのモデルについて厳しい疑問を突きつける必要がある。それは目的にあったものなのか、適切な要因を考慮に入れているか、アウトプットは現実に起きていることを本当に反映しているか、などだ。