- Column
- 学校では学べないデジタル時代のデータ分析法
データ分析における心理的側面の深いつながり【第13回】
データ分析には心理学の要素が必要だと第2回で述べた。錯誤相関と原因帰属である。錯誤相関とは、2つの事象に実際は関係がないのに関係があるものとして比べる心理現象だ。たとえばスーパーのレジなどで隣の列と比べて自分の列が遅いと感じることである。原因帰属は、行動の結果の原因をどこに求めるか、つまり帰属するかということだ。たとえばパワースポットを訪れた後には良いことが起こると結び付け、そうでないことは結び付けないといったことである。データ分析者は、データに騙されないためにも心理的なことも知らねばならない。
人は、出所が確かでないデータでも言われる状況によっては、いとも簡単に信じてしまう。そもそも人は、自らが信じたいことがあり、それに合致した内容ならば根拠のないデータでも易々と騙されてしまう傾向が強い。
その傾向をネット社会が加速させている。特にSNS(ソーシャルメディア)では、違う意見を持つ人とは、ほとんどやり取りしていない。このため反対意見が届かなくなり、自分の意見が社会全体の一般的な意見だと錯覚してしまう。
これを「エコーチェンバー(Echo chamber)現象」と呼ぶ。自分の部屋(チェンバー)の中で自らの声が増幅され、あらゆる方向から跳ね返りエコーのようになることを指す。同じ意見の人々とのみコミュニケーションを繰り返すことで自分の意見が増幅・強化される現象だ。
認知心理学や社会心理学には「確証バイアス」という用語がある。仮説や信念を検証する際に自分の支持する情報ばかりを集め、反証する情報を無視する傾向のことである。データを評価する際には、確証バイアスに陥らないように、冷静で合理的な対応が求められる。ただ人は、合理的に判断して物事を決めるのではないことが「行動経済学」で指摘されている。
確率ですら主観的な評価で歪んでしまう
2017年のノーベル経済学賞を受賞したリチャード・セイラー教授は、「行動経済学」の発展に寄与したことが評価された。行動経済学では、人の好みや感情など心理的な側面に人間の判断が左右されることを重視する。
たとえば、自分が購入した宝くじは当たりそうだと思い、過去に1等が出た売り場で買いたくなる。つまり、確率が主観的な評価で歪んでしまうのだ。低い確率の現象を過大評価してしまう。データ分析をする場合、評価はあくまでも客観的でなければならない。
行動経済学と従来の標準的な経済学を比較してみよう。行動経済学では、人に行動を起こさせるために「ナッジ(Nudge:背中を押したり、肘で軽く突いたりするイメージ)」する必要がある。ナッジされ、うながされた人は、意識して他人の状況や心理を察して対応することとなる。
一方、標準的な経済学では、自己の利益を最大限にすることが前提になる。自然界では2つの物質が混在する際、お互いが、それぞれの領域を最大化しようとすると、必然的に両者の境界面は最小になっていく。標準的な経済学では自己都合の欲望が最大化しバブルのように膨らんで結局、破れるのだ。
だが行動経済学では、意識して他者との境界面を最小にすれば、それぞれが極大化できるようにバランスを保てる(図1)。この考えは経済学だけでなく、データにも当てはまる。
自己利益のために作為的に作られたデータは合理的なものではない。つまり嘘をついているデータが、世の中には数多く存在している。しかし、「境界面の最小化」という概念を知っていれば、データ分析における予測や分類の手助けになる。
たとえば、SNSであることないこと色んな情報が出回る。嘘の情報と事実の境界のバランスが取れなくなると炎上が起きる。この時、正常なデータと嘘のデータとの境界は、自然ではなく歪になっている。
嘘のデータは可視化すると不自然なグラフに、あるいは大局は正規分布などに見えるが、よく見ると局所的に違和感が見つかる。19世紀のフランスでは、徴兵検査で身長制限(157cm)があったが、その数値で異常値が見られ嘘が見破られたという。
データは、その対数を取ったり、微積分やベイズ推定などを行ったりすることで真実が見えてくる。行動経済学にならってデータ分析でも、データをナッジする(突く)という処理が必要なのである。