- Column
- 学校では学べないデジタル時代のデータ分析法
「分類」の手法を誤ると正しい姿はみえてこない【第5回】
主成分分析の目的は「縮約(しゅくやく)」である。一般的には、比較的長い文章や語句、表記を短くまとめるという意味だ。データ分析の場合は、たくさんの変数があるときに、複数の変数をごく少数の項目、つまり合成変数(上記の例では合成得点)に置き換えることで、データを解釈しやすくすることである。模試の例でいえば、単純な合計点ではなく、重み付けした合成得点で量的に評価することで結果を公平に比べられる。
これに対し因子分析では、データからは直接には観測できない要因を推論して考える(図3)。これを「潜在因子」と言う。先の模試でいえば、「文系」と「理系」の2因子、あるいは「読解力」と「抽象化」と「計算力」の3因子が、潜在因子として考えられる。どの変数にも影響を与える因子を「共通因子」、ある変数にのみ関連する因子を「独自因子」という。
因子分析の目的は共通因子を見つけることである。これにより、理系・文系の振り分けや、各学生が強化すべき重点項目の洗い出しが可能にある。食品や飲み物の開発、人の心理を図る尺度として使われるケースが多い。
採用面接における因子分析の効果
因子分析の活用例として、筆者が実施している採用面接を紹介しよう。面接は、30分や1時間程度では、その人となりは分からないものである。外見や発言、表情だけなら、いくらでも演技ができる。クラウドコンピューティングが登場した2006年頃からは、人に求める選択肢が格段に増え、考え方も多様化した。ITエンジニア、コンサルタント、データ分析者などの職種によって、求める因子は異なるため、科学的に評価できるように因子分析が有効だと考える。
筆者の面接ではまず、独自に作成した質問票に回答してもらう。その結果と、「知的好奇心」「外向性」「協調性」「良識性」「情緒安定性」「異常度合」「建前度合」の7因子を結び付けることで、面接者の適性を数値化し量的に評価するのだ。
候補者には何気ない質問を70~100問程度出し、紙に「はい」か「いいえ」で答えてもらう。候補者の能力を測るというよりも、採用する側との相性や隠れた特性をあぶり出せる内容になっている。回答を分析すると、興味深い結果に出会える。
たとえば、上記の7因子と候補者の名字との相関関係が出たり、面接での強気の発言とは異なる、ひ弱な像が浮かび上がってきたりすることも少なくない。実際、違和感を持って採用した場合には、分析結果に近いものになる。期待を裏切る、あるいは予想に反して良かった場合は、因子分析で使った質問票を修正する。公開されている手法をカスタマイズして使うことも大事だが、それよりも継続して補正していくことが大切である
ちなみに、5つの因子で性格を分析する手法は「ビッグファイブ(特性5因子モデル)」と呼ばれている。ビッグファイブは、ルイス・ゴールドバーグ氏が提唱した手法で、「人間が持つさまざまな性格は5つの要素の組み合わせで構成される」とするものだ。5つの因子とは、「神経症傾向」「外向性」「経験への開放性」「協調性」「誠実性」である。