- Column
- 学校では学べないデジタル時代のデータ分析法
データ分析で重要なのは「列(属性)」を増やすこと【第2回】
ここで大切なのが時間軸だ。通常は、事象Aも事象Bも同じ時間軸で比較する傾向がある。だが別に、時間軸は異なっても問題はない。逆に事象Cの時間軸が事象Aや事象Bと同じだと現状把握ができるだけで予測は困難である(図3)。
偽の因果関係を見抜く6つのステップ
経済学などの専門家は、2つのデータ間あるいは2つの事象の関係について、相関関係なのか因果関係なのかを明確に区別する。因果関係は、「A(原因) → B(結果):AならばBである」で表される。本物の因果関係かどうかを検証するには、以下6つのステップを取る。
【基本】「AならばBである」という関係の必然性を追求する
筆者の信念は、「世の中には偶然はない。偶然に見えても解き明かせていない必然的な関係性がある」だ。そこからスタートして、想像力で解き明かしていく。
【反証】「AならばBである」という関係は単なる偶然であると仮定する
関係性に“違和感”を感じたら偶然の可能性がある。偶然である証拠を積み重ねてみる。
【裏】「AでなければBではない」と“裏”を考える
原因、結果のそれぞれを反対につなげてみる。色々なステップを繰り返し正当な因果関係を見つけ出す。
【逆】「BならばAである」と“逆”にしてみる
原因と結果を入れ替えてみることも大切だ。逆のほうにフィット感があれば原因と結果を入れ違えている可能性も高い。
【第3の要因】原因・結果の双方に影響を及ぼす新しい要因を想定する
原因、結果の双方に影響を及ぼす第3の要因が存在するケースも想定する。この要因を「交絡(こうらく)因子」という。
【実験】実際に試験する
実験の代表的なものはランダム化比較試験である。分析対象を無作為に2つのグループに分ける。ある因果関係が成り立つかどうかを証明するため、一方のグループには原因になることを行わせ、別のグループには原因とは反対なことを実施させる。試験後、両グループの結果に明確な差があれば因果関係が成立する。
グループの分け方には他にも、コホート研究やケースコントロール研究がある。ランダム化では倫理的に問題な場合がある。例えば、飲酒・喫煙を実験するのに、ランダムにグループ分けして無理やり飲ませる訳にはいかない。そこで実際に酒を飲むか飲まないかという習慣でグループに分ける。これをコホート研究という。
逆問題では、ケースコントロール研究がある。健康なグループと病気のグループに分け、何が原因であるかを追究する。過去についてヒアリングするため、人の記憶に頼りデータの信頼度は劣るが手っ取り早い方法ではある。
データ分析にも心理学の要素が必要に?!
これら分析時に気を付けたい現象に錯誤相関がある。2つの事象に実際は関係がないのに関係があるものとして比べる心理現象だ。例えば、スーパーのレジなどで並ぶ列が複数できている場所で、隣の列と比べて自分の列が遅いと感じる。あるいは、傘を忘れると雨が降るなどである。アナリストは、この現象をうまく使って「日食の1年後には平均で17.2%株価が上昇する」と言い、株価を上げたい心理を刺激している。
もう1つ気を付けたいのが原因帰属だ。行動の結果の原因をどこに求めるか、つまり帰属するかということである。例えば、パワースポットを訪れた後に良いことが起こると結び付け、そうでないことは結び付けない。データ分析の本流ではないが、このような心理学を十分に使いこなすのが今後のデータ分析では一層必要かもしれない。
次回は、分析の手段の概要について述べる。
入江 宏志(いりえ・ひろし)
DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。現在は、ビッグデータのソリューション企業に勤務する傍ら、データ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。
ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。