• Column
  • 学校では学べないデジタル時代のデータ分析法

「分類」の手法を誤ると正しい姿はみえてこない【第5回】

入江 宏志(DACコンサルティング代表)
2018年1月29日

データ分析の主な手法は「可視化」「分類」「予測」の3つである。前回は、これら3つの手法のなかから「可視化」について説明した。今回は、分析の手法の「分類」について説明する。

 データ分析の主な手法のうち、「分類」と「予測」によって結果を得るまでの通常の手順は、概ね以下の5つである。いずれも数学的な考え方が求められる。

手順1:分類によって当たりをつける
手順2:対象を絞り込む
手順3:予測によって影響度を測る
手順4:先を読む
手順5:効果を検証する

 データ分析時には、これら手順の繰り返すことで、ビジネスリーダーが真に知りたい結果を導き出さねばならない。今回は、手順1と手順2について述べる。

手順1:分類して"当たり"をつける

 データを群(グループ)に分ける、あるいは並び替えるには、当然ながら基準がいる。これが列(属性)であり、性別や年齢層、年収など様々な分け方がある。必要な列は新たに作らねばならない。データを似通ったグループに分けることは、マーケティング戦略のセグメント分析でもよく使われてきた。

 このように分類は、数学の理論がベースになっている。ビジネスのためのデータ分析では、クラスター分析、主成分分析、因子分析が役に立つ。以下で述べるクラスター分析、主成分分析、因子分析は、多変量解析と呼ばれ、様々な要因から結果を導く手法である。多変量解析は計算負荷が大きく、手計算では極めて困難である。コンピューターの発展により、比較的容易に実行できるようになった。

 クラスター分析は、クラスタリング分析とも呼び、質的な基準で似通ったグループに分けていく(図1)。クラスターとは、群・グループ・塊・仲間のことで、データの中から、ある「列」でまとめられる集団を指す。

図1:「クラスター分析」でグループに分ける

 たとえば、ある市町村の住民を職業という「列」で分けていくと、グループ1がサラリーマン、グループ2が公務員、グループ3が自営業者などになる。膨大なデータから関係の近い情報に分類できるので、顧客分析で使われるケースが多い。

データを量的に評価・分類する主成分分析と因子分析

 主成分分析と因子分析は、いずれもデータを量的に評価し分類する。ただし両者の考え方は、まるで違う。例を挙げたほうが分かり良いだろう。高校生が全国レベルの模試を受験したとする。結果は、数学が比較的簡単で平均点が100点満点中の80点、国語は逆に難しく平均点が30点、英語の平均点は50点だった。

 ここで、数学が得意な鈴木君と、国語が得意な佐藤君の結果は次の通りだったとしよう。

 鈴木君:数学100点、国語20点、英語50点。合計170点
 佐藤君:数学50点、国語40点、英語50点。合計140点

 単純に合計点だけで順位を出すと、平均点すなわち学科による難易度が考慮されないので、明らかに不利な生徒が出てくる。この場合に役立つのが主成分分析である(図2)。教科ごとに重み付けをして合成得点を出す。

図2:「主成分分析」でデータを縮約し正当に評価する

 仮に合成得点を以下のようにしよう。

 合成得点 = 数学 × 0.8 + 国語 × 1.5 + 英語 × 1.0

 すると、鈴木君の合成得点は160点、佐藤君は150点になる。合成得点を出す際に計算した式を「合成変数」と言う。最初に生み出された合成変数が第1主成分、続いて第2主成分、第3主成分になる。