データの支援による意思決定

 そんなわけで、データはありがたい存在だ。いまやネット接続型の機器が、想像を絶するような量のデータを獲得している。あらゆるトランザクション、顧客のあらゆる身振り、ミクロ経済・マクロ経済のあらゆる指標、よりよい意思決定につながるさまざまな情報をもたらしてくれる。

 人々は、このデータ豊富な新しい環境に対して、みずからのワークフローを適応させてきた。IT部門は、機械(データベースや分散ファイルシステムなど)を用いて情報の流れを支え、手に余る量のデータを、人間が利用するうえで処理可能な形へと要約する。この要約をその後、人間がスプレッドシート、ダッシュボード、アナリティクス・アプリケーションのようなツールを用いて、さらに処理する。最終的に、高度に処理され扱いやすい大きさとなったデータが、意思決定のために提示される。

 これが「データ主導」のワークフローだ。人間の判断は、依然として中心的な処理機能を担うが、ここでは要約されたデータが新たなインプットとして利用される。

 人間が中心的な処理機能を果たすのは、勘だけに頼るよりもましなのは間違いない。だが、依然としていくつかの限界が生じる。

 1. 人間はデータすべてを利用するわけではない。要約されたデータは、元の(ビッグ)データセットに含まれていたインサイトや関係性やパターンの多くを、曖昧なものにしているかもしれない。

 人間の処理能力に合わせるためには、データの整理・削減が必要である。人は、自分の周囲にある大量の情報を苦もなく処理し、置かれた環境を把握するのには長けている。ところが、数百万件あるいは数十億件もの記録として示される構造化データの処理となると、非常に能力が限られている。

 人間の脳は、限定的なレベルにまとめられた販売数や平均販売価格といったものには対処できる。だが、価値の全体的な分散や、データ要素間の関係(これは集計的な要約では失われてしまうが、優れた意思決定のためには重要な情報だ)について一度考え始めると、悪戦苦闘したり思考停止したりする。

 これは、データの要約が役に立たないという意味ではない。たしかに要約は、ビジネスに基本的な可視性をもたらすうえでは優れている。ただし、意思決定で利用するにはほとんど価値をもたらさないだろう。人間向けにデータを整える際に、あまりに多くが失われるからだ。

 また、要約されたデータが完全に誤解であるケースもありうる。交絡因子が正の相関関係にあるように見えても、実は逆の場合もある(シンプソンのパラドックス他を参照のこと)。そして、ひとたびデータがまとめられると、諸因子について適切な調整を行おうとしても、それらを復活させることが不可能な場合もある(最善の方法は、ランダム化比較対象試験、すなわちA/Bテストを活用することだ。この方法がなければ、AIですら、交絡因子について適切に調整することが不可能かもしれない)。

 要するに、データの処理で中心的な役割を果たすのが人間であれば、人力でのデータ処理に伴う高い代償を回避するために、依然として正確さが犠牲になるのだ。

 2. データは、人間を認知バイアスから切り離すには十分でない。データの要約とは人間が主導するものであり、そこにはあらゆる認知バイアスに陥る隙がある。

 私たちは、自分自身が直感的にわかりやすい方向へと要約を導く。データに対し、「代表的」で「典型的」と自分が感じられる区分要素の集合となるよう求めてしまう。けれども人間は、物事を大雑把に分類して、違いが十分に説明されない大まかな既成概念に当てはめがちだ。たとえば、地域間で行動の違いが認められないにもかかわらず、データを「地域」という属性でまとめることがある。

 要約はまた、データの「粗粒子」だと考えることもできる。つまり、データの大まかな近似値である。たとえば、地域という属性は、値が比較的少ない(すなわち、「東部」対「西部」などの)地域レベルに留めておく必要がある。だが、もっと細かいデータが重要かもしれない。都市、郵便番号、さらには街区レベルのデータなどだ。そのレベルになると、人間の脳に処理可能な形で集計し要約するのは、より困難になる。

 また私たちは、要素間の関係が単純であることを好む。関係性を直線的だと見なす傾向にあるが、それは人間にとって処理が簡単だからだ。価格と売上高、市場浸透率と顧客転換率、信用リスクと所得――これらの関係はすべて直線的だと仮定されるが、データがそれを否定している場合でも、その思い込みは消えない。また人々は、データの傾向や差異について、自然または偶然による発生という説明のほうが適切な場合でも、複雑な説明をひねり出したがる。

 残念ながら、私たちはデータを処理する際に、みずからのバイアスを持ち込んでいるのだ。