• Column
  • 学校では学べないデジタル時代のデータ分析法

「可視化」でビギナーズラックもAmazonの戦略も理由が見えてくる【第4回】

入江 宏志(DACコンサルティング代表)
2017年12月25日

裾野に隠れた真実を表す「べき分布」

 このように(対数)正規分布におけるx軸の右側の裾野には、ケタ違いの変動が潜んでいる。様々な自然現象や、社会現象、ビジネスの世界での大きな動きなどである。

 ただ「正規分布が常に有効ではない」ことは、最新の金融工学を駆使し莫大な利益を上げてきたファンドの破たん例にも表れている。理論上は、めったに起こらないような変動によって、巨額の損失を出してしまう。平均値や最頻値の周りの95%はあまり役に立たず、上位4~5%の動きで、すべてが決まってしまう現象である。株価や為替の動きが、まさに当てはまる。株価や為替レートは、上位4~5%の売り買いでが決まるのだ。

 自然現象でも月のクレーターを、そのサイズが大きいものの順に並べると現れるのが「べき分布」である(図5)。

図5:まれにしか発生しない自然現象などは「べき分布」にならう

 たとえば、床に落ちた花瓶や割れたガラスの破片を分類すると、5つ程度の大きな破片と、複数の中小の破片、そして数えきれないほどの細かな破片に分かれる。これまでの世の中は、扱いやすい中小の破片だけを取り扱ってきたが、データ分析で大切なのは、5つ程度の大きな破片を見つけることである。

 これも経験的なことだが、興味深いことに、自然に割れたモノは正規分布に、意図的に割ったモノは対数正規分布になる傾向がある。いずれにしても、x軸の右側をいかにあぶり出すかが重要なのだ。

局所点で起きやすい「ポアソン分布」

 筆者は数学科出身だが、大学時代に統計学で出てきて忘れない分布が1つある。ポアソン分布だ。元々は戦争で兵隊が馬に蹴られて死ぬ確率を表した分布だ。数学が賭け事や戦争など人間の感情に密接に関連していると実感するきっかけになった。

 ポアソン分布は、めったに起こらないが、起こるとある時期に固まって起きやすくなる現象である。逆に、起こらないとかなり長い間起きないという傾向もある。昔から「天災は忘れたときにやって来る」とはうまく表現したものだ。

 ビジネスでも積極的に使われ始めている。ビッグデータ以前は、ポアソン分布を使うほど大したデータ量もなかった。それが最近は、IoT(Internet of Things:モノのインターネット)などデータの爆発的な増加により、ビジネスでも使う価値が出てきた。自然現象では、一定の時間・距離の中で偶然に起こる事象の数の分布に用いられる。

 最近は、宝くじ付きの預金も多く、高額宝くじが当たったといって新規の口座開設を勧誘している金融機関も少なくない。確かに、局所点の考え方からすれば、その銀行から当たりが続けて出る確率は低くはない。ただ、勧誘されてから口座を開いても、すでに局所点の時期を過ぎている場合がほとんどである。その意味で、局所点のような塊(クラスター)を素早く見いだし、いかに予測するかが鍵になる。

 次回は、可視化に並ぶ分析方法である「分類」と「予測」について述べる。

入江 宏志(いりえ・ひろし)

DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。

ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。