- Column
- 学校では学べないデジタル時代のデータ分析法
データ分析には数学的・科学的手法を生かすセンスが不可欠【第15回】
センス3:想像力の射程距離を延長する
筆者は、本連載を含む種々の原稿執筆や講演などを行った際に、実施していることがある。執筆・講演内容の形態素解析である。形態素解析はテキストマイニングの一種で、文法や辞書に従って、言語を名詞・形容詞・副詞などの最小単位(形態素)に分割してくれる。誰にも、どうしても使いやすい言葉に偏る傾向があるため、形態素解析により自分の“癖”を直しているのだ。
ただ、形態素解析自体が大切なのではなく、これを何に使うかという“想像力の射程距離”が勝負の分かれ目になる。熱心に細かい形態素に分けるツールもあるが、あまり役には立たない。筆者は、執筆・講演内容のレビューのほか、優秀な社員の属性や退職傾向といった非構造化データの分析などに使っている。
ここで言う想像力には、ある手法をどの分野に適用するかだけでなく、ある分野に、どの手法やモデルを使うかという逆の想像力もある。経済予測という分野を例にみてみよう。
共通点が多くてもモデルは共通とは言えない
経済学は、気象学との共通点が多い。いずれも分析に関して工学的な手法を使っているが、著しく複雑なシステムのため、まだまだ理解が不十分である。データ分析の基本は、第3回で述べたように「分類・予測」だ。まずは分析対象をいくつかの群(クラスター)に「分類」する。群のそれぞれは、複数の要素が絡み合い、お互いに影響を及ぼしている。その影響を考慮して「予測」する。
経済や気象の分析であれば、経済の要素は、消費者・生産者・金融機関などである。気象では大気の流れや雲などが要素である。ここから予測モデルを作成する。気象の場合、基本は大気の流れから気象予測モデルが作れる。これに、複雑で常に変化し続ける雲の事象を加える。
これに対し経済は、需要と供給が一致する点で安定するため、気象予測モデルが使えない。さらに、人の心理・政治情勢・地政学的なリスクなど、さまざまな要因が絡んでくることから分析の難易度が高まる。そのため株価予測はプロでも難しい。
株価や物価動向といった長期的な予測だけでなく、その日の為替や株価ですら正確に予測できないのは経済モデルが、まだまだ未完成のためだ。その最適なモデルを見つけるには推論を重ね続けねばならない。なおかつ、想像力の射程距離を伸ばし、気象学だけでなく、全く異なる分野の予測モデルを持ち込む必要があるだろう。
このことはAIにとっても同様だ。AIであっても、株価などの資産を的確に予測し、市場の平均よりパフォーマンスが良いファンドは作れないとも言われる。現時点のAIには、金融活動の効率性向上、あるいは不正の検知と防止への適用が期待されている。
たとえば不正検知の場合、人手では、分析対象のデータサイズが大きすぎて不正取引の特徴を正確に把握できなかったり、新しいタイプの不正取引に対応するのに時間がかかりすぎたりするからだ。AIの適用では、スコアリングにより、過去に不正あるいは怪しいと判断された取引データを集め分析する。分析の基本は第6回で述べた回帰分析である。
いかがだろうか。今回紹介したような数学的・科学的な手法や発想がビジネスにつながっていく。次回は逆に、データをどうビジネスに結び付けるかについて述べる。
入江 宏志(いりえ・ひろし)
DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。
ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。