- Column
- 学校では学べないデジタル時代のデータ分析法
ビッグデータの分析は客観的から主観的へ、ベイズ推定が注目される理由【第3回】
主観的な推論により“真実”に近づく
筆者は、ベイズ推定を以下のように利用する手法だと考えている。
「未知の不確実なものを推定する場合に使う。得体の知れないものでも、確率がゼロではない限り、真実の解明に役立つ。主観的であると同時に現実的な手法なので、分析者が諦めずに追究すれば、隠れた何かがあぶりだされてくる。実際、現実社会には従来の統計学のような綺麗な確率は存在しない。創造力・想像力が必要な時代では分析者のセンスが試される。不明確・不鮮明なものを解明する場合や代替案の選択で効果を発揮する」
ベイズ推定では、最初に主観で確率を設定する。これを「事前確率」と呼ぶ。あくまでも主観で決めたものなので、実際の観測データで補正していかねばならない。ベイズの定理で補正した結果を「事後確率」と言う。
事後確率 = データの尤度(ゆうど) × 事前確率
ここで「尤度(ゆうど)」とは、観測データに基づいた仮説の正しさの確率である。たとえば、「迷惑メールを推定する」としよう。筆者の経験値から事前確率(すべてのメールの中で迷惑メールである確率)を30%とする。取得されたメールに「迷惑メールであるかどうか」の印が最初から備わっていればと便利だが、そんなものはない。
そこで迷惑メールの条件を自ら考える。ここでは、メールが「url付きか、どうか」を条件とする。実際に、観測データで補正することで、事後確率が72%になったならば、「送られてきたメールがurl付きなら、72%の確率で迷惑メール」ということになる。
迷惑メールであると筆者が設定した事前確率の30%が、条件を設定し、実際のメールを観測したことで事後確率が72%になった。確率が2.4倍(=72%÷30%)に上がっている。この「2.4」という数字が尤度である。これは、条件を入れることで2.4倍に確率の信頼性が増したことになる。
このように、意味不明の領域で主観的に設定した事前確率は、実際に取られた観測データで補正することで事後確率を求められる。条件を新たに付け加え、繰り返せば精度が高まっていく。迷惑メールの推定では、たとえば、「送られてくる曜日や時間帯」「メール送信元のドメイン」などの条件を付ければ良い。これを利用して作られているのが、迷惑メールフィルタリングである。
多彩な適用範囲、高い計算能力をGPUに求める
こうしたプロセスを踏むためベイズ推定は、かつての統計学の教科書では、「最初に経験的な確率を自ら設定するため、あいまいすぎて科学性に欠ける」とされた時期がある。だが、それも今は、幅広い分野に適用されている。事例や試行中の取り組みは表1のように多彩である。
【分野】 | 【用途】 |
ロケット制御 | ロケットの軌道を推定 |
自動運転、衝突回避 | 周囲の移動体の把握と現在地を確認 |
迷惑メールフィルタリング | 迷惑メールの推定 |
医療問診 | 診断という本来的に不確実で間違いの起きやすいプロセスへ応用 |
TOEFL等のテスト | 本来の実力の推定 |
音声解析、音声合成 | 未知のデータへの汎化 |
ゲノム解析 | 遺伝子情報と塩基配列(GATC:グアニン、アデニン、チミン、シトシンの並び)の関係性の解読 |
天文学 | 解明されていない分野への挑戦 |
心理学 | 人間のネガティブ、ポジティブな感情を数値化した感情値の把握 |
創薬 | たんぱく質の構造解析 |
素材 | 新素材の開発 |
エネルギー | 省エネ研究 |
セマンティック検索 | 質問に対する答えの生成 |
ネット通販でのお薦めメール | 購入可能性の高い人の特定 |
人工知能の深層学習 | 人間を介さずに、データの特徴量を自動的に抽出 |
ベイズ推定を応用するには、高度な積分計算が必要になる。コンピューターの処理能力が低い時代には使い道が少なかった。それが最近はITが飛躍的に進化し、ベイズ推定を応用できる環境が整ってきた。コンピューターで1秒間に100万回もベイズ推定を使って計算することで自動車の衝突回避やロケットの制御などを判断している。
その流れで注目が高まっているのがGPU(Graphics Processing Unit:画像処理装置)である。一般的なCPU(Central Processing Unit:中央演算処理装置)と違い、画像処理に特化したプロセサで、1秒間に30兆〜120兆回を計算している事例もある。Googleが開発している人工知能の深層学習(Deep Learning)専用プロセサの「TPU(Tensor Processing Unit)」は1秒間に1京回の計算ができる。
客観的な分析方法は、可視化・分類・予測からなる。次回は、そのなかから可視化を見てみよう。
入江 宏志(いりえ・ひろし)
DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。現在は、ビッグデータのソリューション企業に勤務する傍ら、データ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。
ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。