• Column
  • 学校では学べないデジタル時代のデータ分析法

分析では複数の手法の組み合わせが大切【第37回】

入江 宏志(DACコンサルティング代表)
2020年8月31日

質的・量的なデータに対し、どの分析手法を使うかが腕の見せどころ

 それでは、複数の分析手法を切り分けてみよう。データを分析する場合、入力と出力がある。入力を専門的には「説明変数」と言い、出力、つまり分析の結果を「目的変数」という。

 目的変数には、予測された結果、言い換えると「アウトカム」か、単なる分類、難しく言えば「縮約」となる。入力も出力も種類によって「量的」か「質的」に区別できる。

 たとえば、ロジスティック回帰分析の入力は量的でも質的でもいい。結果は0か1(たとえば、商品を買わないか買うかの2択)になるので、質的なものになる。自らが持つ質的・量的なデータに対して、どの分析手法を使うかが腕の見せどころだ。

 各分析手法の関連を示したのが図1である。

図1:各分析手法の関連

 データを「散布図」で表し、そこから「函数」y = f(x)を割り出し、「回帰分析」につながっていく。一方、「条件付き確率」が基本になって、ベイズ法やアソシエーション分析になっていく。

 回帰分析、ベイズ法、そして、ディープラーニング(深層学習)で得られたモデルがもとになり「判別分析」ができあがる。

 判別分析では、そのモデル「判別モデル」が肝になる。たとえば、多くのサンプルからヘビーユーザーかどうかの判別モデルを作れる。そこに他の人のデータを入れると、イエス(目的変数1)かノー(目的変数0)の答えが返ってくる。判別分析が機械学習につながっていき、判別モデルがAI(人工知能)で使われて自動運転や自動翻訳など高度なことができるようになる。

 AIの世界では、ディープラーニングによりボトムアップア方式でデータを1から収集・分析する(第11回参照)。一方、ベイズ法によりトップダウン方式で推論することで真実にたどり着く。

 実は、AIが21世紀になって復活した理由がここにある。ボトムアップ方式とトップダウン方式の融合だ。ディープラーニングにより生の情報をもとに、ベイズ法では既存の知識から推測する。つまり1つの問題に対して、ディープラーニングにより学習をし、続いてベイズ法で推論して処理することになる。

 以上、計37回に渡って『学校では学べないデジタル時代のデータ分析法』として分析について紹介・解説してきた。今回で一旦、筆を置く。職業としてデータサイエンティストやデータアナリストになる方、もしくは、企業のデータ分析の担当者、そしてビジネスだけでなく個人的なことで、さまざまなことを分析したい方々への参考になれば幸いである。

入江 宏志(いりえ・ひろし)

DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。

ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。