• Column
  • 学校では学べないデジタル時代のデータ分析法

未解決な事象の分析に威力を発揮するベイズ推定【第7回】

入江 宏志(DACコンサルティング代表)
2018年3月26日

条件が複数になっていけば積分の力を借りる

 このように、意味不明の領域で主観的に設定した事前確率は、実際に取られた観測データで補正することで事後確率として置き換えられる。条件を新たに付け加え、それを繰り返せば精度は高まっていく。

 迷惑メールの例では、たとえば「送られてくる曜日や時間帯」「メール送信元のドメイン」などの条件を付ければ良い。この仕組みを利用しているのが迷惑メールフィルタリングの仕組みだった。この考え方は、自動運転や自動翻訳などに応用されている。

 例題では、事象「A」と余事象「Aではない」の2つのみである。その場合の計算は単純で図4の左側のようにP(B|A) × P(A)を求めればいい。しかし現実社会では、事象が3つ以上の複数になるのが自然である。それぞれを条件設定すると複雑な函数f( x )が現れる。このように条件を増やしていくと図4の右側のような複雑な函数になる。

図4:変形後のベイズ推定の解は青色の面積の部分。これは積分で求められる

 この場合、aとbと函数f( x )で囲まれた面積を求める必要がある。この面積を求めるには積分が便利だ。積分は「∫(インテグラル)」で表す。以下の数式が、aとbと函数f( x )で囲まれた面積を表している。

 このように主観による推論を用いれば、未解決の事象の解決に役立つ。事実はそのまま眺めても単なる事実であるが、推論を加えることで真実に近づいていく。 なお、ベイズ推定で得た数値をもとに、決定木分析など従来の分析方法を適用することで幅広い解析が可能になる。

 いかがだっただろうか。単に文章を読むだけでは理解は難しいかもしれない。筆者もベイズ推定に関するワークショップを開いているが、今回提示したような例題を解きながら、理解を深めることをお薦めする。

 次回は、データ分析の対象について述べる。

入江 宏志(いりえ・ひろし)

DACコンサルティング 代表、コンサルタント。データ分析から、クラウド、ビッグデータ、オープンデータ、GRC、次世代情報システムやデータセンター、人工知能など幅広い領域を対象に、新ビジネスモデル、アプリケーション、ITインフラ、データの4つの観点からコンサルティング活動に携わる。34年間のIT業界の経験として、第4世代言語の開発者を経て、IBM、Oracle、Dimension Data、Protivitiで首尾一貫して最新技術エリアを担当。2017年にデータ分析やコンサルテーションを手がけるDAC(Data, Analytics and Competitive Intelligence)コンサルティングを立ち上げた。

ヒト・モノ・カネに関するデータ分析を手がけ、退職者傾向分析、金融機関での商流分析、部品可視化、ヘルスケアに関する分析、サービスデザイン思考などの実績がある。国家予算などオープンデータを活用したビジネスも開発・推進する。海外を含めたIT新潮流に関する市場分析やデータ分析ノウハウに関した人材育成にも携わっている。