- Column
- 学校では学べないデジタル時代のデータ分析法
「分類」の手法を誤ると正しい姿はみえてこない【第5回】
手順2:対象を絞り込んでいく
クラスター分析などで傾向をつかみ分析対象を絞り込んでいく過程では、クロス集計も頻繁に使われる。2つ以上の属性で絞り込んでいく手法だ。クロス集計は、分析では必ずと言えるほど使われる基本的なもので、本格的な分析の前の要約では貴重な手法である。
通信販売の顧客の絞り込みを例にとれば、以下のような条件でクロス集計する。
・30代の会員
・女性
・過去1年間に3回以上購入
これら3つの条件に合う会員が5000人いたとする。さらに次の条件でクロス集計する。
・スマホで購入
・1回の購入金額が1万円以上
これで対象は、たとえば300人に絞り込め、実態が浮かび上がってくる。アンケート調査でも、よく使われる。ただ、注意も必要である。アンケート調査や世論調査が当たらなくなっているケースがあるからだ。英国がEU(欧州連合)からの脱退を決めた「Brexit(ブレグジット)」や、2016年の米大統領選でのトランプ氏の勝利などが記憶に新しい。
調査が外れる大きな理由は、(1)調査では人間の感情の強弱が分からない、(2)質問に対する答えしか分からない、(3)人は嘘をつく、ことである。アンケート結果や世論調査で出てくる事実だけでなく、裏に隠された真実を見抜かねばならない。
分類によって絞り込んでいく手法には「決定木分析」がある(図4)。用途は分類だけでなく、予測や判別と幅広い。具体的な顧客層を描きたいときに頻繁に使われる。
たとえば、缶コーヒーの顧客像を分析する場合、決定木分析を適用しないならば、市場調査のデータなどから全種類の缶コーヒーから「○○缶コーヒーを選択する確率は25%」などと割り出すしかない。決定木分析を適用すると、属性を頻度、年齢、性別に分けることで「缶コーヒーを毎日飲む40代の男性の中で、○○缶コーヒーを選ぶ人は65%」といった結果が得られる。あいまい顧客層ではなく、より明確な顧客層が浮かび上がってくるわけだ。
次回は、手順3の「予測」について述べる。
入江 宏志(いりえ・ひろし)
DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。
ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。