• Column
  • 学校では学べないデジタル時代のデータ分析法

分析では複数の手法の組み合わせが大切【第37回】

入江 宏志(DACコンサルティング代表)
2020年8月31日

分析手法の組み合わせのパターンは天文学的

 実際の分析では、分析のプロセスにおいて適切な手法を選ぶため、さまざまな組み合わせが生まれる。だが実際には、多くの目的に有効な“パターン”が存在する。以下に挙げる3つパターンは、筆者が長年の分析経験の中で、よく使ってきた組み合わせだ。

【パターン1】分類:因子分析 → 影響度を測る:重回帰分析 → 検証:A/Bテスト

 商品に関するアンケートをユーザーから独自に取って因子分析する。その結果から重要な因子を複数個取り出す。その上位の因子2つで4事象を作り可視化する。因子が商品にどのように影響しているかを知るため、重回帰分析を行う。

 y:評価、x1:因子1、x2:因子2とし、函数y = ax1 + bx2を割り出す。

 これに基づいて作られた試行品を使ってもらい、A/Bテストでユーザーの好みを知る。ここで注意すべきなのは「多重共線性」という問題である。説明変数x1、x2・・・に相関があると、間違った結果にたどり着いてしまう。独立性のある説明変数で分析する必要がある。

【パターン2】分類:クラスター分析 → 絞り込み:クロス集計 → 影響度を測る:ロジスティック回帰分析

 顧客情報をクラスター分析して大まかな分類をする。次に、年代別・過去の利用履歴・購入媒体などでクロス集計する。そしてロジスティック回帰分析をし、結果として商品を買う(目的変数1)か買わない(目的変数0)かを得る。求められるのは、売り上げではなく、購入したか、しなかったかというデジタル情報であり明確な影響度を測れる。

【パターン3】絞り込み:クロス集計 → 関係の強弱を知る:相関分析

 登録しているユーザーが、インターネット上のどのページにアクセスしたかを顧客の年齢や性別などでクロス集計し、ユーザーを絞り込む。どのユーザー層が、どのコンテンツを見る傾向があるかどうかが相関分析できる。

 この結果に基づいて、まだ見ていない、似た属性を持つユーザーに相関関係が強いコンテンツをプッシュできる。コンテンツには、商品、ニュース記事などありとあらゆるものがある。

 コンテンツが商品の場合は、アソシエーション分析も利用できる。データマイニングの1つで、マーケティングで利用される代表的なデータ分析手法だ。顧客が商品を購入する際の購入パターンや売買履歴を分析することで、ある商品Aと商品Bの売れ行きについて、その関連性を抽出する。応用すれば第33回のように、人と人との関係性を分析する場合でも使える。

 第3回で述べたように、問題を解くには、どう解くかという手法である「アルゴリズム」が必要になる。手法はいくつもあるが、選ばれた方法論ともいえる「メソッド(方法論)」は限られてくる。これら3つのパターンは、単なるサンプルにも見えるが、筆者流のメソッドでもある。

 分析法の組み合わせは多岐にわたり、その数は天文学的だ。常識にとらわれることなく試してほしい。ただ、やみくもに実施するのも無理がある。自分に合ったメソッドを作ることが成否の分かれ目になる。

 その際に参考になるのが、第5回で示した、分類から予測し検証するまでの基本手順1~5だ。

手順1 :分類によって当たりをつける
手順2 :対象を絞り込む
手順3 :予測によって影響度を測る
手順4 :先を読む
手順5 :効果を検証する

 これらの手順すべてを実施する必要はなく、臨機応変に組み合わせていく。経験的に言えば、実践するうえでは、以下の3つのポイントが役に立つ。

 1つは、大切なのは因果関係だけでなく、相関関係も重視すること。2つ目は、分析の過程で“違和感”を覚えたら、自分の主観を信じて推論しなければならないこと。そして3つ目が、推論の前提となるデータを礎にして、客観的に条件付き確率を求めることである。

 これら5つの手順と3つのポイントを使って筆者は、オープンデータである国家予算や経済指標(カネ)と、全く関係のない複数のモノ、関係する業界のヒト、関連する企業(ブランド)を紐づけて分析した結果、今後のビジネスで鍵となるキーワードをあぶりだせた。

 そのキーワードは、通常なら、かなりの大金をコンサルタントに支払って依頼し出てくるようなものだ。それが分析作業により科学的に成果として得られる時代になってきた。