- Column
- 学校では学べないデジタル時代のデータ分析法
データ分析には数学的・科学的手法を生かすセンスが不可欠【第15回】
データ分析は数学の元に成り立っている。良く「数学者の厳密である」と言われる。それを表す逸話の1つに、つぎのようなものがある。
天文学者と物理学者と数学者の3人が会議に出席するために列車でイングランドからスコットランドへと向かっていた。その境界線を越えるとき、車窓には原っぱに2頭の黒い羊が見えた。そこで、3人はこう言った。
天文学者:「あれを見たまえ、スコットランドの羊は黒いのだ」
物理学者:「スコットランドの羊のうち、少なくとも2頭は黒いということにすぎない」
数学者:「スコットランドの羊のうち少なくとも2頭は、少なくとも片面が黒い」
天文学者の“直線的な感性”、物理学者の“事実を重んじる考え方”、数学者の“厳密に真実を求める姿勢”が端的に表現されていると言えるだろう。
問題を抽象化し必要・十分条件を絞り込むのが数学
古代エジプトでは紀元前3000年にはすでにサイコロが作られていた。サイコロの出目が神の意志とされた。偶然性とのつきあいの始まりである。その延長線上で、ギャンブルがきっかけで17世紀に確率論が生まれた。そして哲学的な考えから、数字・文字式・図形・数式を用いて数学が細分化し、そこから物理学・化学・生物学などへと進んでいくことになる。
数学は問題を抽象化し、必要条件・十分条件を究極まで絞り込む学問である。データ分析と親和性が高い。データ分析の手段と数学には表1のような関係がある。
【分析の手段】 | 【関連する数学の例】 |
可視化 | 確率分布、統計、集合論、線形代数、行列(画像データ、文字データは行列で表せる) |
分類 | 群論、統計 |
予測 | 解析(フーリエ解析など)、確率、統計、行列の固有値、微積分、セルオートマトン |
判別 | 代数、方程式論、アルゴリズム論 |
トポロジカルデータ解析 | 幾何、トポロジー、多様体 |
推論 | ベイズ推定、微積分 |
スパースモデリング | トポロジー、グラフ理論 |
データ分析という科学的手法でも、先の逸話に示された“直線的な感性” “事実を重んじる考え方” “厳密に真実を求める姿勢”は必要だ。ただし、実際のデータ分析では、これらに加えて(1)データの美、(2)手元にないデータの予測、(3)想像力の射程距離の延長といった3つのセンスが求められる。