• Column
  • 学校では学べないデジタル時代のデータ分析法

データ分析で重要なのは「列(属性)」を増やすこと【第2回】

入江 宏志(DACコンサルティング代表)
2017年10月30日

「社内で活用されていない、あるいは、従来は捨て去ってきたデータを経営に活かせないか?」——。こうした要望は経営層を中心に非常に根強いが、経営にはなかなか役立っていない。結局、経営層を含めたビジネスリーダーにとって、分析自体は手段であって、ほしいのは最適な答えである。今回は、分析の目的を掘り下げてみる。

 「分析」の語源は、その漢字が示すとおり「木を斧で切り分けて使いやすくすること」である(図1)。木をデータの集まりだと考えれば、横に切ると「行」が増え、縦に切ると「列」になる。この「行」がデータの単位となる「レコード」であり、「列」は、そのレコードの属性だ。例えば、日本の人口という木には2017年9月時点で、1億2667万の行があり、年齢や住所、学歴、身長、体重といった列(属性)で分けられる。

図1:「分析」の語源は「木を斧で切り分けて使いやすくすること」である

 データ分析で重要なのは「列」である。いくら「行」が多くても「列」が少なければ分析の視点からは全く意味がない。属性が分析の基準になるため、基準が少ないデータは単なる“ゴミの山”である。自ら作りだすデータ、市場で売られている調査データ、誰でも自由に使えるオープンデータのいずれもが「列」が限られているだけに、新たな「列」をどう作るかが勝負の鍵になる。

 さて、ここに“魔法の箱”があり、データを入れれば答えが出てくるとしよう(図2)。例えば、ある商品の今の需要量を箱に入れると、1年後の最適な需要量が予測されて出てくるような箱だ。この箱が「関数」である。「箱」には「函」という漢字もあるが、「関数」には「函数」のほうがしっくりくると筆者は感じている。

図2:ビジネスリーダーが知りたい「答え」を導き出すのが「函数」

 函数は英語で「function」である。なので函数は、その頭文字を取って y = f (x) で表す。先の例を当てはめると、xが現在の需要量で、yが1年度の予想需要量である。数学で出てくる函数と方程式を勘違いされる人も多い。函数はx からy を求める順問題である。一方の方程式は、例えば100 x + 50 = 350などxを求める逆問題である。学校では、こうしたことも明確には教えてくれない。

自由な分析指標で相関関係を見出す

 ビジネスリーダーが知りたいことに相関関係がある。2つ以上の事象の間にある関係性のことだ。ある雑誌に「『フィットネスを活用する人数』(事象A)を『外国語学習者の数』(事象B)で割ったものが『6カ月後の株価』(事象C)と相関関係がある」という内容があった。

 つまり 事象A ÷ 事象B ≒ 事象C である。

 また「『家計調査でのマグロの消費額』(事象A)から『家計調査でのアジの消費額』を引いたものが『6カ月後の内閣府・景気ウオッチャー調査の景気指数』(事象C)と相関関係がある」との内容もある。

 これは 事象A - 事象B ≒ 事象C である。

 このように自由な発想で独自の分析指標を作ればいい。事象間の関係性を見る場合、別に割り算や引き算だけでなく、足し算やかけ算、log、ルート、微積分などでもいい。2つ以上の事象の関係性を、数学を駆使して、あぶり出せるかどうかにかかっている。