• Column
  • DX時代に不可欠なデータリテラシー入門

データを読む力を高める=集計/分析編【第3回】

濱野 正樹(クリックテック・ジャパン ソリューション技術部 部長)
2020年9月14日

分布:データのばらつきを把握し、視覚化する

 分布とは「分かれて広がる」という意味です。データ分析における分布は、データのばらつきを、把握、表現、および視覚化することです。

 引き続きABCコーポレーションを例に、営業活動の改善施策を実施した際の効果を測定する場合を考えてみましょう。

 ABCコーポレーションは営業活動で扱う案件金額の低下に課題を持っています。数多く行われる取引の案件金額を平均的に高めて全体の売上高を底上げするために、営業活動における改善施策を実施し、その前後の案件金額の状況をビジュアルに可視化することを考えてみます。

 営業活動における改善施策を実施する前と後のそれぞれの案件金額の分布を棒グラフ(ヒストグラム)で表したのが図2です。横軸のX軸が「案件金額」、縦軸のY軸が「案件数」を表しています。

図2:ABCコーポレーションの案件金額の棒グラフ(ヒストグラム)

 棒(ビン)の数は同じですが、案件金額の分布が異なることが分かります。施策実施前に比べ実施後は、分布のピークが右側(案件金額が高い方向)に移動しており、改善施策によって平均的に案件金額が高まっていることがうかがえます。

 こうした分布でよく見るのが「正規分布(Normal distribution)」です。図2の施策実施前/施策実施後のそれぞれの分布は、この正規分布に従っています。

 正規分布は「ガウス分布」「釣鐘分布」とも呼ばれます。ピークが1つで左右対称になります。結果の半分が平均値より上になり、残り半分が下になります。正規分布では、平均値と中央値と最頻値が、ほぼ同じになります。

 分析対象となるデータ全体(母集団)の分布を測定するためによく使われるのが「標準偏差(Standard deviation)」です。ギリシャ文字で小文字の「σ(シグマ)」で表します。ちなみに平均は「μ(ミュー)」で表します。

 標準偏差が低いとデータのばらつぎ具合が小さくなり、またピークはシャープになります。高い場合は、データの散らばり具体が左右に広くなり、ピークはなだらかで裾野が広いグラフになります。もし、すべての値が同じであれば、データにはばらつきがないので標準偏差はゼロです。

 図2の例では、施策実施前の分布に比べて、施策実施後の標準偏差は小さくなっています。そのため、後者の方がピークはシャープになっていることが分かり、データのばらつき具合がやや小さくなっています。

 すべての分布が“均一”な分布を示すとは限りません。分布における非対称性を「歪度(わいど: Skewness)」と呼びます。グラフの裾野が右に広がるものを「正の歪度」、逆に左に広がるものを「負の歪度」と呼びます。

 ピークが1つではない分布もあります。ピークが2つあると「二峰性」あるいは「バイモーダル(Binomial)」と呼びます。ピークが3つ以上になると「多峰性(Multimodal)」と呼びます。

 図2において、施策実施前と施策実施後のデータを区別せずに混ぜ合わせ、1つのデータ群として扱うと、ピークが2つある二峰性の分布となります。このように二峰性・多峰性は、複数の異なる分布のデータが混ざりあっているときに典型的に発生します。これらを分けて分析する方がデータの傾向を把握するにはより望ましい場合があります。

 分布を可視化するには、箱ひげ図(ボックスプロット)も用いられます。箱ひげ図は、5つの統計量(最小値、最大値、第一四分位数、第三四分位数、中央値)に基づいて分布を視覚化します。図3は、先ほどのヒストグラムを箱ひげ図で置き換えたものです。要約統計量を把握しながら、分布を視覚的に概観できます。

図3:箱ひげ図(ボックスプロット)の例

 箱ひげ図は複数の分布を比較するためにより向いたチャート表現です。図3では、施策実施前と施策実施後の分布の違いを、中央値、最大値、最小値などの要約統計量と視覚の両面から把握できます。

 前回と今回で、データを読む力に欠かせない知識として、データのタイプと属性、および集計と分布について解説しました。次回は、データを使う力に必要な知識について解説します。

 なお本連載は、データ活用のためのオンライン学習プラットフォーム「データリテラシープロジェクト」が提供する動画コンテンツを参考に構成しています。動画も併せてご活用ください。

濱野 正樹(はまの・まさき)

クリックテック・ジャパン ソリューション技術部 部長。2014年2月クリックテック・ジャパン入社。Qlik製品の大規模エンタープライズ提案やプロジェクトを支援するとともに、各種カンファレンスやコミュニティサイトなどを通じて技術情報を発信している。日本IBM株式会社でハードウェア製品やデータ統合製品の技術を担当。プログレス・テクノロジーズ株式会社でのテクノロジー・センター長としての技術組織のマネジメントや、IMS Japan株式会社(現IQVIAソリューションズジャパン株式会社)での大手製薬企業向けグローバルBI/DWHシステム構築のプロジェクトマネージャーなどを歴任。筑波大学MBA(International Business)修了。