- Column
- 学校では学べないデジタル時代のデータ分析法
ビッグデータの法則:その1=95%は信頼できない【第19回】
これまで、データ分析の基本的な考え方や、分析に必要な各種の“センス”について解説してきた。今回からは、ビジネスやデータ分析に役立つ考え方として、筆者が「ビッグデータの法則」と呼ぶルール群について解説する。
ITの世界は複雑化する一方だ。その潮流を的確に押さえるためには、覚えやすい順序に並べるのも1つの方法だ。
たとえば最近の経済紙・誌などで使われているものに「CAMBRIC(キャンブリック)」がある。「Cloud Computing(クラウド)」「AI(人工知能)」「Mobility(モビリティ)」「Big Data(ビッグデータ)」「Robotics(ロボティクス)」「IoT(モノのインターネット)」「Cyber Security(サイバーセキュリティ)」の頭文字を取ったものだ。
これら7つのキーワードが入り組んだ時代には、これまでの常識や法則が通じない事象が起こる。そして、これらすべての礎になるのがビッグデータである。
ビッグデータの特徴は、4つのV、すなわち「Volume(大量)」「Variety(多様)」「Velocity(速度)」「Value(価値)」である。そのビッグデータと対峙し、ビジネスやデータ分析などに役立てようとすれば、特徴のそれぞれにルールがある。(1)95%は信頼できない、(2)振り子現象、(3)数字の魔力、(4)広がる格差、である(図1)。
すなわち、大量の資産(データ・人・モノ・金)が2つの事象の間を行ったり来たり移動を繰り返す(振り子現象)ため、考えられない早さで格差が広がってしまう(広がる格差)。そこには数字にまつわる多様な法則(数字の魔力)が存在し、従来信じていた領域外から新しい価値を見いださなければならない(95%は信頼できない)。これらを総称し筆者は「ビッグデータの法則」と呼んでいる。今回は(1)95%は信頼できない、について説明する。
ルール1:95%は信頼できない
「95%は信頼できない」は、ビッグデータの法則にあって最大のルールである。データを扱う際に、どこに重要なデータが集まりやすく、どういう傾向があるかを知る手掛かりを示している。
すなわち、95%が信頼できなくなり、残りの5%から価値を探す必要がある。これが「95%は信頼できない!」というルールだ。これは、ビジネスそのものが常に変化し、従来の法則に沿わなくなっていることを認識しなければ、有効なデータ分析はできないということである。
具体例を挙げよう。たとえば日本の国債の大多数は日本人が保有しており、海外保有率は2015年9月以前は1ケタ台、2018年9月末時点で11.59%である(資金循環統計、日本銀行より)。ところが金利変動に影響するのは、海外保有の中で動きの早いもの、つまり全体の5%程度なのである。
同様に、為替においても、変動が大きな5%の値だけをつないだ時系列のグラフと全体のグラフの形は似ている。逆に、残り95%のグラフは全く違ったものになる。
これは、国債や為替に限った話ではない。従来は、信頼できると考えられていた95%のエリアだけでは、CAMBRICの時代には不十分になっている。むしろ95%を無視し、5%のみをとらえれば全体像がわかるといっても過言ではないほどだ。それほど希少性が問われている時代だといえる。