Column
学校では学べないデジタル時代のデータ分析法

デジタル時代はなぜ“データ分析力”を求めるのか【第1回】

入江宏志（DACコンサルティング代表）

2017年9月25日

　データを取り扱うには、次の3つの能力が必要である（図2）。

図2：データを取り扱うのに必要な３つの能力

・データサイエンス力：IT、情報処理、AI活用、数学、統計学、確率論、微積分、アジャイルによるプロトタイプ開発など

・データエンジニアリング力：DIKW（Data、Information、Knowledge、Wisdom）の理論、数学的な考えを産業界で応用できる力、一見全く関係ないデータを突合する力、違和感・変曲点・特異点を知る力、トポロジー分析、スパースモデリング、ベイズ推定など

・データイノベーション力：ビジネス課題への適応力、社会変革への企画力・創造力、リスク管理力、サービスデザイン思考、ロジカルシンキングなど

　データサイエンス力を重視しているのがデータサイエンティスト（Data Scientist）であり、データエンジニアリング力を重視するのがデータアナリスト（Data Analyst）やコンサルタントである。そしてデータイノベーション力を重視するのが、最近注目されているCDO（Chief Digital Officer）である。

ツールは大きく3つのカテゴリーに分けられる

　冒頭、ツールありきではダメだと指摘したが、ツールが不要という訳ではない。データ分析に当たっては、ツールのカテゴリーを十分に知って“偽の力”しか持たない製品を見抜く力も必要になる。データに関連するツールは大きく次の３つのタイプに分けられる（図3）。

図3：データ関連ツールの3つのカテゴリー

（1）ルールベース型：人が作った規則に基づいて分析する
【長所】比較的安い、構築しやすい
【短所】古いアーキテクチャー（設計思想）で科学的ではない
【特徴】俗人的、デマンドドリブン型（あらかじめ要望が明確）、帰納的

（2）ビッグデータ型（統計型）：データを集めて統計処理し、その辞書に基づいて分析する
【長所】漏れなく処理、ハードウエアはCPU（Central Processing Unit）で十分
【短所】統計の辞書に依存、データ数次第
【特徴】統計的、ビッグデータ、演繹的

（3）ニューラルネット型（AI型）：推論モデルを礎にAIが深層学習で分析
【長所】論理的でスムーズな処理
【短所】学習が不十分だと漏れがある、ハードウエアはGPU（Graphics Processing Unit）が適するが高価。GPUはリアルタイム画像処理に特化した演算装置で最近はAIでも注目されている
【特徴】科学的、イベントドリブン型（事前の要望が曖昧）、抽象的

　現状、販売されているツールの多くは（1）ルールベース型だ。一部が（2）統計型であり、最近は（3）ニューラルネット型が「AI」として話題になっている。ただAIは、ベイズの定理などに基づいた主観的な処理のため、条件を設定した際に捨てるデータが多数あり、データの全量からすると、まだまだ漏れがある。そのため完全な処理のためには統計型ツールも必要になる。データを捨てるということはリスクの部分も増える。データ分析ではリスク管理のノウハウも重要になる。

　一般に欧米発のツール類は、従来型の日本企業にとっては、使い方の問題もあるかもしれないが、適合度は低いことが多い。その背景には、日米欧の考え方における以下の違いもある。

　　日本：帰納的　　米国：演繹的　　欧州：抽象化

　あくまでも例え話であるが、1～10までの合計を求める場合、日本人は1 ＋ 2 ＋ 3 ＋･･･＋ 10と帰納的に答えを出す。10まで程度なら良いが、1万までとなれば骨が折れる。米国人は結果を知っていて、演繹的に｛ n × （ n + 1 ）｝ / 2と計算で答えを出す。昔から著名な数学家を排出している欧州人は、なぜ合計が｛ n × （ n + 1 ）｝ / 2になるかを物事を抽象化して考えて理解しているとされる（１〜nまでの合計Sn = ｛ n × （ n + 1 ）｝ / 2　であることは、学校で習っているはずなので、読者も改めて証明してみてほしい）。