- Column
- DX時代に不可欠なデータリテラシー入門
データを使う力を高める=相関関係と因果関係編【第5回】
負の相関関係の例も見てみましょう。図3のグラフの相関係数は「-0.98」です。マラソン走者の週あたりのトレーニングの走行距離が増えるほど、完走までの時間は短くなる傾向があります。
それでは相関係数が「0」ならどうでしょうか。図4のグラフは相関係数が「0.08」です。グラフを一見して分かるように、識別可能なパターンがまるで見いだせません。
図2のパイの消費量とクラゲの刺傷数はどうでしょうか。相関係数は「0.96」です。グラフでは増減の動きは似ていますが、両者に関連性はありません。このように両者に関連性がないにも関わらず、相関関係があるものを「疑似相関」と呼びます。
因果関係:2系統のデータは偶然の一致か原因と結果の関係にあるか
続いて因果関係です。因果関係とは、「片方の変化が、もう片方に変化を与える関係」です。言い換えれば「原因と結果になる関係」です。相関関係と因果関係は一見、似ています。同一視されがちですが、混同しないことが極めて重要です。
相関関係の例として挙げた図1では、売上高の増加と営業へのコミッションの増加が同じような動きをしています。ここに因果関係があるかどうかを確かめるには「売上高が増加したことに伴い、コミッションが増加したのか」を検証していくことになります。
たとえば、抗がん剤の効果を検証する場面を想定してみましょう。ある抗がん剤は2年前に発売され、がんの症状を排除または軽減すると言われていました。しかし実際に服用した人を追跡調査すると、有意な症状の改善が見いだせません。そこで過去の治験データを確認してみることになりました。
過去の治験データを見ると、症状の改善があったかのように見える説明がありました。相関関係はあるけれど、因果関係ではないものが証拠として提出されていたのです。さらに悪いことに、この抗がん剤を服用すると、高血圧の症状が増加するという因果関係があることが分かってきました。
このように相関関係と因果関係を混同すると、効果が期待できないばかりか、むしろ悪い効果をもたらす抗がん剤を患者に与えてしまうことになりかねません。データを使う際には、相関関係と因果関係の違いを正しく理解しておく必要があります。
別の例で考えてみましょう。ある工場では労働力と生産性の最適化を進めるために、生産性が高い時間帯や要因を探していました。時間帯別で見ると、午後の早い時間帯の生産性が高いことが分かりました。そこでマネージャーは「午後一番に実施するミーティングが生産性を高めているに違いない」と考えました。
ところがマネージャーが休暇を取りミーティングを実施しなくても、生産性は下がることはなく、むしろ微増していました。そこでミーティングを実施しないパターンと、隔週で実施するパターンで調査したところ、生産性は前者では15%向上し、後者では8%の向上が見られました。どうやらミーティングと生産性の間に因果関係はなく、マネージャーの仮説は正しくなかったようです。
さまざまなパターンで検証したところ、午後の生産性向上に影響を与えていたのは昼食休憩のようでした。休憩が生産性向上をもたらしていたのです。そこで短い休憩を増やすことで生産性と士気の向上を実現しました。
前回と第5回では、シグナルとノイズ、相関関係と因果関係について説明しました。データを使うあらゆる場面で、これらの概念を正確に理解することが不可欠になります。特に相関関係と因果関係は混同しないことが重要です。常に「これは実際に影響を及ぼしていることなのか?」を問いかけながらデータと対峙してください。
なお本連載は、データ活用のためのオンライン学習プラットフォーム「データリテラシープロジェクト」が提供する動画コンテンツを参考に構成しています。動画も併せてご活用ください。
濱野 正樹(はまの・まさき)
クリックテック・ジャパン ソリューション技術部 部長。2014年2月クリックテック・ジャパン入社。Qlik製品の大規模エンタープライズ提案やプロジェクトを支援するとともに、各種カンファレンスやコミュニティサイトなどを通じて技術情報を発信している。日本IBM株式会社でハードウェア製品やデータ統合製品の技術を担当。プログレス・テクノロジーズ株式会社でのテクノロジー・センター長としての技術組織のマネジメントや、IMS Japan株式会社(現IQVIAソリューションズジャパン株式会社)での大手製薬企業向けグローバルBI/DWHシステム構築のプロジェクトマネージャーなどを歴任。筑波大学MBA(International Business)修了。