- Column
- 学校では学べないデジタル時代のデータ分析法
正しい分析に向けデータの特性と関係性のパターンを知る【第8回】
これまで、データ分析の主な手法である「可視化」「分類」「予測」の3つについて説明してきた。今回は、データ分析の対象である「データ」そのものについて見ていこう。
これまで、私たちが分析で格闘してきたのは“特定有限”のデータである。「Trusted Data(信頼できるデータ)」と呼ばれる。社内データや調査機関のデータ、各社がホームページなどで公開しているデータなどが相当する。構造化されたデータが中心である。
Trusted Dataの特徴は、人間が分析する過程でデータの対象が大きくなっていくことだ(図1)。たとえば、自動車部品について分析しようとすると、ある部品データから着手しても、その上位部品と下位部品へと広がっていく。さらには、部品を製造したメーカーや、その部品に関わっているバイヤーやサプライヤーにも広がらざるをえない。
これらのデータについて、その関係を結びつけると、部品と部品、部品とメーカー、メーカーとメーカー、部品と新規参入メーカー、部品と代替品などなど、関係性が増えていく。分析する際は、それぞれの辞書を作る必要がある。筆者は「B2B2B構造」と呼んでいるが、3層の関係性がある。データが構造化されているが故に、つながりをたどりやすく、対象が広がっていくと言えるだろう。
ビッグデータ時代が生み出した「Any Data」
Trusted Dataに対し、ビッグデータという言葉が登場してから注目を浴びたのが“不特定無限”のデータである。「Any Data(さまざまなデータ)」と呼ぶ。ニュースや、フェイクニュース、位置情報、SNS(Social Network Networking)への投稿、囲碁や将棋などが相当する。データの形式を問わず非構造であることが多い。
Any Dataの特徴は、人間が分析すれば、その過程で対象データが小さくなっていくことだ(図2)。たとえば、ニュースであれば、日付という属性で区切れば、5月1日のデータというように小さくなる。人の能力には限界があるので、ある程度の基準でデータを切っていかねば気付きを得られない。
ところが、AI(人工知能)がAny Dataを分析すると、AIには限界がないので分析過程で対象は小さくならず、無限の可能性をもって分析できる。たとえば、囲碁や将棋では人間がAIに勝てなくなっている。これは人が自分の感性で切り取った側面しか見ていないのに対し、AIは多角的に、人間が切り出せない側面を見ているからだ。
加えて、これまでAIは、大量の過去データがなければ考えられないため限界が存在するとされてきたものが、囲碁対局AIの例にみられるように、人間の過去データを学習するのではなく、自己対局によって学習できるようになっている。手元にないデータをAIが自ら創出する段階にきていると言える。
こうした理由から、AIが導き出した答えを人が理解するのは難しい。またAIが、その答えをどのように導き出したかが分からないから、答えが信頼できないとの議論もある。しかし、“本物”のAIが提案する結果には、人には意外性があっても必ず根拠がある。人間は元来、意外性をこよなく愛しており、それが本質だ。いずれAIが提示する意外性を人間は好むことになるだろう。