• Column
  • 学校では学べないデジタル時代のデータ分析法

データに潜む関連性を見いだし将来を予測する【第6回】

入江 宏志(DACコンサルティング代表)
2018年2月26日

犯罪捜査にも使われているロジスティック回帰分析

 それでは散布図に現れた回帰分析を説明しよう。通常、回帰分析は因果関係を表し、「結果(目的変数と呼ぶ)」に対して様々な「要因(説明変数と呼ぶ)」の影響度を測る(図2)。説明変数が1つであるものを「単回帰分析」といい、説明変数が複数ある場合は「重回帰分析」と呼ぶ。前述の例では、説明変数が「 x 」という1つの場合が単回帰分析、「 x1、x2、・・・」と2つ以上ならば重回帰分析になる。

図2:「回帰分析」で因果関係をあぶり出す

 ビジネスの現場では重回帰分析がよく使われる。保険などでは特に駆使されてきた。年齢や年収、扶養家族の数などに対する結果を見れば、影響が大きい要因が分かる(図2では購入額という結果)。

 この結果を2値にしてみる。たとえば、商品購入の有無について考えてみる。買った場合を「1」、買わない場合を「0」と、それぞれ2進数のデジタル情報にする。そうすると要因の影響度が大きいもの、小さいものがあぶり出される。購入者を職業・性別・趣味という要因で分け、購入への影響度の大小で要因を表せば、「新たな会員が当該製品を買うか買わないか」を予測できる。

 これを「ロジスティック回帰分析」という(図3)。いくつかの情報から別の情報を統計的に式で導き出す手法だ。警察での犯罪捜査であるプロファイリングでも使われ、犯人像をデジタル情報化できる。犯行現場から取得されたデータで犯人の特徴を割り出すために使用される。

図3:影響度を知る「ロジスティック回帰分析」

 「円仮設」という地理的プロファイリングもある。これは、犯行現場の最も遠い2点を結んだ線を直径として描いた円内に、犯人の自宅もしくは職場があるという説だ。この方法を用いれば犯人を予測しやすくなる。捜査担当者の先入観が入らない分、客観的な分析となる。

 さらに「ロカールの法則」もある。犯罪者が現場に証拠を残すと同時に、犯罪者自身にも証拠が残るというものだ。たとえば、犯人が現場に足跡や髪の毛などを残すと同時に、犯人の靴の裏に土をつける。あるいは、被害者の指紋が犯人のジャンパーにつくようなケースだ。このようなデータも要因とすれば、より予測の精度は高まる。

 そういえば最近、筆者は自転車に乗っていて生まれて初めて職務質問を受けた。若い警察官自身も「初めて職務質問した」という。その警官が、誰に職務質問しているかを陰から観察してみると、「自転車に乗った男で、黒いジャンパーを着た人」を条件に、特に「黒いジャンパー」で"当たり"をつけようとしたようだ。データ分析においても、このような的外れな"当たり"をつけることが多々あるかと思うが、これを回避するには何よりも経験が必要になる。