• Column
  • DX時代に不可欠なデータリテラシー入門

データを読む力を高める=データ編【第2回】

濱野 正樹(クリックテック・ジャパン ソリューション技術部 部長)
2020年8月31日

データ分析に取り組むに当たり、誰もが求められるデータリテラシー。前回は、その定義である「データを読み、使い、分析し、論じる能力」を紹介しました。今回からは、データリテラシーを構成する4つの力それぞれを高めるのに必要な基本的な知識を解説していきます。今回と次回は、「データを読む力」についてです。まずは、読む力のベースになる「データ」について説明します。

 売上高やアンケート結果など、データの集計は日常的に行われています。しかし、その結果を正しく判断できなければ、正しいインサイト(洞察)は導き出せません。「データを読む力」はデータリテラシーのなかで最も基本的な力だといえます。

 データに基づき、どんな変化が起きているのかを見い出すためには、そもそもデータに関する正しい理解が不可欠です。データの扱い方を間違えると、誤った集計や視覚化をもたらしてしまうからです。分析結果の報告として表現されているものが正しくなければ、あなたのチームや会社は誤った判断をしてしまうかもしれません。

データには量的なものと質的なものがある

 データを読む力のベースになるのは、データそのものについての理解です。多くの人がデータについては「分かっている」と言うでしょう。しかし、ここで改めてデータの基本を確認し、その上で専門的な用語について、その概要を理解していきましょう。

 データとは「レポート作成や、計算、計画、分析のために使用可能な事実または情報」のことです。データは、タイプと属性で分けられます。

 まずデータの種類には大きく分けて(1)質的データ(Qualitative data)と(2)量的データ(Quantitative data)の2つがあります。

 質的データとは、分類したり種類を区別したりするためのデータです。そのままでは足したり引いたりといった演算はできません。

 これに対し量的データとは、数値として意味があるデータです。そのまま足したり引いたりの演算ができます。

 みなさんも、身近にあるデータが、量的データか質的データかを改めて考えてみてください。たとえば売上分析ではどうでしょうか。販売システムにある項目の中で、取引先名や製品名は質的データ、売上額や利益額は量的データです。

データには4つの尺度(評価基準)がある

 質的データと量的データはさらに、4つのデータ尺度に細分化できます。これら尺度によって、データが何を表現しているのか、どんな処理(足したり引いたりの演算など)ができるのかが変わってきます。

 データの尺度には(1)名義尺度(Nominal scale)、(2)順序尺度(Ordinal scale)、(3)比例尺度(Ratio scale)、(4)間隔尺度(Interval scale)があります(表1)。名義尺度と順序尺度は質的データ、比例尺度と間隔尺度は量的データです。

表1:データの種類とその説明
種類尺度説明
質的データ名義尺度データに順序がなく、分類のために利用されるデータ取引先名、製品名
順序尺度順序に意味があるが、間隔には意味がないデータ「1位/2位/3位」、「優/良/可」
量的データ比例尺度連続する範囲の中で変化し、「0」を原点として間隔や比率に意味があるデータ売上額、利益額、コスト額
間隔尺度目盛が等間隔になっており、大小の意味は持つが、「0」は相対的な意味しか持たないデータ気温、テストの点数、時刻

名義尺度: 「取引先名」や「製品名」など、分類のために区別はできても、順序はつけられないデータです。

順序尺度: 「1位/2位/3位」、「優/良/可」、「Sサイズ/Mサイズ/Lサイズ」など順位や成績の評価など順番に意味があるものです。区別ができ順序がつけられるデータです。

比例尺度: 「0」を原点として間隔や比率に意味を持ち、あらゆる算術演算が可能なデータです。製品Aの価格が1400円、製品Bは2700円、製品Cは5000円といった価格や売上額のデータなどが代表的な例です。製品群の平均価格を求めることも、売上高として販売価格の合計を求めることも意味があります。

間隔尺度: 順序に似ていますが、尺度の目盛が等間隔になっているデータです。実行しても意味がない算術演算があるのも特徴です。その一例が温度です。月曜の最高気温が24度、火曜は27度、水曜は30度といった測定結果は、演算で平均気温を求められますが、合計を出しても意味がありません。

 比例尺度と間隔尺度は見分けが難しい場合がありますが、見分けるポイントとしては「0を原点として絶対的な意味を持つか持たないか」の違いです。

 たとえば、売上額が0の場合には売り上げがないことになるので比例尺度になります。一方で、温度は0だったとしても、温度がないわけではなく、あくまでも温度の相対的な位置を示しているに過ぎません。このようなデータは間隔尺度になります。

連続データと離散データにも分けられる

 データを4つの尺度に分類する以外に、別の分類方法として(1)連続データ(Continuous data)、(2)離散データ(Discrete data)の2つに分ける方法もあります。

 連続データは温度や時間のように連続した値をとるデータです。それに対して、離散データは人数や点数といった1、2と数えられるデータです。

 ただし、連続データを離散データとして取り扱ったり、またその逆を行ったりすることはデータ分析では良く行われます。データ分析において頻繁に行われる時系列の分析を例にとってみましょう。

 時系列分析では一定の期間で評価指標やデータを監視します。たとえば、連続して流れる時間を軸として、新型コロナウイルス感染症(COVID-19)の新規感染者数を時系列で並べると、感染拡大・縮小がどれだけ進行しているかを連続データとして時系列で視覚化できます。

 一方、時間は「年」「月」「時間」「分」など具体的な単位で計る離散データとしても捉えられます。その単位による離散表現にすることも一般的に行われます。

 データにも、さまざまな特性がありますね。次回は、データを読む力の基本である「集計」と「分布」について説明します。

濱野 正樹(はまの・まさき)

クリックテック・ジャパン ソリューション技術部 部長。2014年2月クリックテック・ジャパン入社。Qlik製品の大規模エンタープライズ提案やプロジェクトを支援するとともに、各種カンファレンスやコミュニティサイトなどを通じて技術情報を発信している。日本IBM株式会社でハードウェア製品やデータ統合製品の技術を担当。プログレス・テクノロジーズ株式会社でのテクノロジー・センター長としての技術組織のマネジメントや、IMS Japan株式会社(現IQVIAソリューションズジャパン株式会社)での大手製薬企業向けグローバルBI/DWHシステム構築のプロジェクトマネージャーなどを歴任。筑波大学MBA(International Business)修了。