• Column
  • DX時代に不可欠なデータリテラシー入門

データを使う力を高める=相関関係と因果関係編【第5回】

濱野 正樹(クリックテック・ジャパン ソリューション技術部 部長)
2020年10月12日

データ分析に取り組むに当たり、誰もが求められるデータリテラシー。第2回から、データリテラシーを構成する4つの力それぞれを高めるのに必要な基本的な知識を解説しています。前回と今回は「データを使う力」についてです。前回の「シグナルとノイズ」に続き今回は、データを使う力でとても重要な「相関関係と因果関係」について説明します。

 「相関関係」と「因果関係」という言葉は、良く耳にするかと思います。しかし、いざ説明するとなると、なかなか両者の違いを正確に伝えるのは難しいのではないでしょうか。相関関係と因果関係を混同していると、誤った結論を導き出してしまう危険性があり、致命的な誤解を生むこともあります。両者は似て非なるものです。

相関関係:2系統のデータの変化がどれだけ近いか

 まずは相関関係です。相関関係とは、「片方の値が変化すれば、もう片方も同じように変化する関係」です。しかし、片方の変化が、もう片方に変化を与えているとは限りません。偶然の一致のケースもあります。

 図1と図2のグラフを比べてみましょう。図1のグラフは、売上高(左軸)と営業へのコミッション(右軸)という異なる評価指標を同じグラフ上に描いたものです。一見して、上下動が似ています。

図1:売上高とコミッションの変動

 図2も、図1と同じように異なる指標を1つのグラフに描いています。左軸はパイの消費量、右軸はクラゲによる刺傷数です。図2も一見して、似ているように見えます。しかし、さすがにパイの消費量とクラゲの刺傷数に関連性があると考える人はいないでしょう。

図2:パイ消費量とクラゲ刺傷数の変動

 もう少し詳しく見ていきましょう。相関関係は、「片方の値が変化すれば、もう片方も同じように変化する関係」でした。この相関関係の評価には「相関係数」を使います。以下では概念を説明し、数学的に、どのように導くかは省略します。

 相関係数は、2つの変数間の相関関係を表す単一値です。「r」で表し、「1」から「-1」までの数値を取ります。

 相関係数が「1」なら、完全な“正”の相関関係を表します。片方が増えれば、もう片方も同じように増えます。グラフ上では“ぴたり”と一致するように動きます。

 逆に「-1」なら、完全な“負”の相関関係を表します。片方が増えれば、もう片方は減ります。相関係数が「1」に近いほど同じような増減を示し、「-1」に近いほど増減の方向が逆になります。図1のグラフでは相関係数は「0.92」ですので、強い正の相関関係があります。