- Column
- 学校では学べないデジタル時代のデータ分析法
ビッグデータの法則:その1=95%は信頼できない【第19回】
今後は「99.9%は信頼できない」時代に突入か
ただ、人間が先祖から受け継いでいる遺伝情報をみれば、民族などによる特徴は、たった0.1%の遺伝情報の相違で現れてくる。5%どころか0.1%が決め手なのだ。時代は今後「99.9%は信頼できない」に突入していくのかもしれない。
実際、データ分析プロジェクトで解析に取り組んでいると、意味のあるデータは全体の5%未満であることが多々ある。筆者が国の委託調査費を調査したところ、将来の施策に影響を及ぼす委託調査は。やはり5%程度だった。
委託調査費は、国が今後の施策の参考にするため民間企業や公益法人等に調査・分析などを委託するための費用である。内閣府、総務省、国土交通省の3省について重複を省いて集計すると、2014年に633件、2015年に847件、2016年は1660件の委託調査があった。これを解析した結果、将来へ大きな影響を与える項目はせいぜい5%だった。数年分をまとめて絞り込むと0.1%にもなってしまう。
自動車部品の分析でも、潜んでいる課題点につながる部品、あるいは今後伸ばしていくべき部品なども全体の5%になる。人の分析でも、会社を引っ張っていく影響力のある人材は5%、企業名や商品名というブランドに関するアンケートで役立つコメントは約5%である。
ネットビジネスなら95%の無料会員と5%の有料会員でビジネスモデルが構築されている。ヘルスケア分野であれば、予防・治療・介護の領域で、運動・食事・睡眠という生活習慣で病気につながる5%の属性をどうあぶり出すかである。
コスト削減、新規ビジネス開発のいずれであっても、ただやみくもにデータを分析するのではなく、ある属性をx軸にしたときに現れる確率分布における端の5%程度(図2の③)をターゲットにすればいい。選ばれた5%を解析していけば芋づる式に候補が出てくる。その属性が何かはコンサルテーションの領域だ。
データをいかに捨てるかが重要
このように、人・モノ・金・ブランド・データという5大アセットの全体から見ると5%程度、絞れば0.1%に大きな価値があるようになってきた。そこでは、少数の例外値、つまり希少性を発見する手法が望ましい。
「Triplet loss」という関数が、その一例だ。Tripletは「三つ揃い」という意味で、3つの要素(Anchor、Positive、Negative)を中心に機械学習される。顔認識での違いや、スナップ写真からファッションアイテムを検出したり、個人の嗜好に合わせて重複を省いたニュースを配信したりなどに使われている。
このように「95%は信頼できない」というルールが示しているのが、データ分析においては、データをいかに捨てるかがポイントだということである。最近、多用されるようになってきた「スパースモデリング」や「ベイズ推定」も、こうした考え方に沿っている。
スペースモデリングは、間引いて観測されたデータに着眼するもので、全体の20%程度に間引いたデータから全体を創造し真実を効率的に探索していく(第15回参照)。一方のベイズ推定は、分析者の主観でもって条件を設定することで無駄なデータを捨て確率の信頼性を高めている(第7回参照)。
次回は、ビッグデータの法則から「振り子現象」を説明する。データ分析において繰り返しパターンを読み解けば効果的に予測ができるというルールである。
入江 宏志(いりえ・ひろし)
DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。
ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。