• Column
  • 学校では学べないデジタル時代のデータ分析法

データ分析にはリスク管理・危機管理が不可欠【第14回】

入江 宏志(DACコンサルティング代表)
2018年10月29日

前回、データ分析において、データに騙されないためには心理的な要素を考慮する必要があると説明した。今回は、データ分析におけるリスク管理と危機管理の重要性について説明する。

 ビジネスの世界で使われるよく使われる話に、ドラッカーの「コップの水」理論がある。コップに水が半分入っていた場合、「もう半分しかない」と「まだ半分もある」との2つの考え方があり、“もう”から“まだ”に変わった時に、イノベーションが起こるというものだ。

 これをリスク管理・危機管理の視点で見れば、コップの水が飲み物であるならば、残った水に着目するのがリスク管理であり、飲んでしまって身体に入った飲み物が有害であれば、それへの対処が危機管理ということになる。

 これをデータ分析で考えてみるとどうか。第7回でベイズ推定では主観的な処理に基づくため、条件を設定した際に“捨てる”データがあると述べた。排除したデータが重要であったならばミスであるが、残ったデータはリスク管理の対象で、そこから選ばれたデータは危機にもなり得る。

 ただリスクはオポチュニティ(機会)にもなり得ることを忘れてはならない。リスクがオポチュニティに変わった時に、イノベーションが起きる。

想定外は必ず起こることを意識する

 このようにデータ分析においてもリスク管理・危機管理の考え方が必須である。大切なことは、「一に人材、二に情報収集、三に決断力」であるが「想定外は必ず起こる」という意識を持たねばならない。

 想定外を知るには、以下4つのノウハウが必要になる。

ノウハウ1:信頼性の高いデータを使う
ノウハウ2:ハインリッヒの法則を応用する
ノウハウ3:データの“トライアングル”を成立させない
ノウハウ4:適切なデータ分量を知る

ノウハウ1:信頼性の高いデータを使う

 第8回で述べたように、筆者はデータの区分を「Any Data(さまざまなデータ)」「Open Data(自由に利用できるデータ)」「Trusted Data(信頼できるデータ)」「Alternative Data(公開していない非伝統的なデータ)」に分けている。Trusted Dataは文字通り信頼できるデータであるが、そもそも信頼性とは何なのか?このことを肝に銘じるのが分析の根本だ(図1)。

図1:信頼性のあるデータの条件

 信頼できるデータであるための条件の1つは、「MECE(ミーシー:Mutually Exclusive Collectively Exhaustive)」の意味で漏れがないことである。これを「完全性」と言う。

 次の条件は間違っていないこと。正確性だ。データは意図的に操作されていることが少なくない。

 もう1つの条件は正当性のあるデータかどうかだ。正当性とは、次の4つの要素を考慮することである。

【合理性】データを適切なコストで処理すること
【社会通念】社会の常識から外れていないこと
【経験則】経験を持った人が分析したものであるかどうか。従来の統計は客観的、ベイズ推定は主観的と述べたが、素人の分析では客観性が大切なものの、経験が豊かなプロにとっては主観的であることも正当性があると言える
【客観性】主観で条件設定した内容を最新データで補正すること

 Open Dataは、モデリングの方法次第で十分に信頼性のあるデータになるが、Any Dataは要注意だ。特に、SNS(Social Networking Service)は操作されやすいメディアなのでデータとしては弱い。災害や選挙など社会的に大きな出来事があると、多くの人が特定の話題について発信し一気に広がるためだ。

 この現象を「バースト現象」という。ネットでは熱心に意見を発信する少数派が可視化され増幅しやすい。現実社会でも二極化が起こるが、SNSではさらに増幅される。

 人はそもそも自分にとって都合がよく、信じたい情報を信じ込む傾向があるが、SNSはそういう人に恰好のメディアである。仮に信じていることを他人に「嘘だ!」と言われると、反発して却って強く信奉してしまう。ネットで少数派の意見の過激な人が声高に言うと、似た意見を持つ人たちを喚起し多数派意見のようになってしまう。

 信頼性を保つには“仮置き”も知っておかねばならない。仮置きとは、実験の前に過去の実験結果をつなぎ合わせて仮の実験結果を作ることで、実験のゴールを分かりやすく示してくれる。データ分析でも仮置きは存在し、分析の前に過去の分析結果をつなぎ合わせることがある。

 これが実は、不正やミスの一因になる。仮置きが、そのまま公開されてしまうことも少なくない。ケアレスミスでは済まされず信頼性が損なわれてしまう。仮置きという手法は良いが、データ分析後に分析結果で置き換える必要がある。