• Column
  • 学校では学べないデジタル時代のデータ分析法

データ分析には数学的・科学的手法を生かすセンスが不可欠【第15回】

入江 宏志(DACコンサルティング代表)
2018年11月26日

センス1:データの“美”

 自然に無駄なことなどない。単純性を好み、余計なことをしない。自然界には、雪の結晶や、冠のような水滴、水の波紋、ハチの巣、リアス式海岸、葉脈など、対称性が高く調和のとれた幾何学的な模様を生み出す“美”が存在する。たとえばリアス式海岸などが持つフラクタル(全体と部分が相似関係にあるもの)性は、美の象徴でもある。

 コンピューターの設計者にも、プログラミングコードの美しさを語る人は多い。筆者は、社会人になってからの5〜6年間は汎用コンピューターのソフトウエア開発者だった。当時、いつも気にかけていたのは、考え方やプログラミングの“美”だった。データ分析でも“データの美”を意識することが自然で大切である。黄金比(第18回参照)や白銀比といった関係も美を表現している。

トポロジカルデータ解析

 数学の中で“美”にこだわるのが幾何学だろう。筆者の専門は幾何学、中でも柔らかな発想が必要なトポロジーだった。柔軟な考え方だからこそ、データ分析の役に立つ。

 たとえば、類似性がある2つのデータ群から、その違いを見つけようとする場合、トポロジーを使った最新のデータ分析が効果的である。データの形に着目し、違いが分かり難いデータ群から異なる特徴をあぶり出す。複雑な幾何的な塊から価値を見出す手法と言え、素材を扱う業界でよく使われる。

 トポロジカルデータ解析を簡単に説明すれば、まずは、空間の“穴の数”に焦点を当て細かな違いを把握する。散らばっているデータの点を膨らませていくと、穴が発生したり消えたりする。データの点のサイズを変えることで変化する穴の数を調べることでデータを分析する(図1)。ランダムかどうかも重要なポイントだ。さらに対称性・単純性・規則性などの違いから、空間の“つながり方”に違いを見いだす。

図1:トポロジカルデータ解析の基本的な考え方

 勘違いされることも多いが、ランダムな結果のほうが人間には不自然に見えることがある。たとえば、散布図においてデータがバランスよく散らばっているほうが人間にはランダムに見え、同じところにデータが重なっていると意図的だと感じてしまう。これを「クラスター錯覚」と言う。人の意図が介在するほうがデータはバランスよく散らばっているのである。

 ちなみにトポロジーの性質や考え方は、最先端科学では欠かせない存在になっている。たとえば、トポロジカルな性質を持つ物質(超電導回路や、光子の偏向、電子のスピンなど)は、量子コンピューターを劇的に進歩させる可能性を秘めているとされる。