• Column
  • 不完全・少量の“レガシーデータ”をAIで活用する

分析対象になるデータの多くは少量で不完全【第1回】

松崎 潤(日本TCS IoT戦略本部 シニアデータサイエンティスト)
2021年3月3日

デジタルトランスフォーメーション(DX)への取り組みが本格化している。DXの中核をなすコンセプトは、IoT(Internet of Things:モノのインターネット)やクラウドなどの技術により収集が容易になった大量のデータ、つまりビッグデータを収集・分析し、その結果を意思決定に活用することだ。

DXが求める理想のビッグデータの収集には専用システムが必要

 そもそも「データ活用」とは、何を目的にしているのだろうか。筆者が考える目的は、「『データ』という実体のある根拠に基づいて、何らかのKPI(Key Performance Indicator:重要業績評価指標)を最適化する、合理的な意思決定を下すこと」である。この意思決定のためには、データの単純集計に基づく現状の把握や、AI(人工技術)などによる要因分析、推論、予測や最適化が必要になる。

 単純集計や、従来の機械学習、統計モデルの適用においては、項目や期間の欠損が少なく、誤りが少なく、一貫した基準で取得されたデータが大量に必要になる。いわゆる「ビッグデータ」だ。ビッグデータを収集するためには、専用に設計されたシステムと組織体制が必要であり、その構築・運用に費用と時間がかかる。

 しかし、ビッグデータ収集のための専用システムを持たない一般的なビジネス現場で取得されているデータは、少量で、一部の項目や期間が欠けたり、誤りが含まれていたり、基準や分類が一貫していないことがほとんどだろう。このようなデータを筆者は「レガシーデータ」と呼んでいる。レガシーデータをそのまま集計したりAIに入力したりしても、意思決定に即、使える結果は得られない。

手入力や非定型業務により収集されたデータの多くがレガシーデータ

 レガシーデータをより具体的に定義してみる。レガシーデータとは、以下の5つの要件のうち、少なくとも1つ以上に当てはまるデータである(表1)。

表1:レガシーデータの要件とビッグデータとの比較
要件レガシーデータビッグデータ
1000点未満など多い
期間の欠損1割以上ごく少ない
項目の欠損
誤り
収集や分類基準の一貫性なしあり

要件1 :データが少量である。例えば、データ点数が1000点に満たないデータは、従来のAIでは対応がほぼ不可能である。データベース上でのレコード数がいくら多くても、業務上必要な値が「月次」の数量の場合、データ取得の期間が「12カ月」しかなければ、それは「12点のデータ」と同じである。

要件2 :一部の期間のデータが欠けている。データの入力・収集のためのシステムや組織体制の都合により、古いデータが欠けていることはよくある。古いデータの欠損は、単純集計や従来のAIでは対応が不可能になる致命的な問題である。

要件3 :入力者の手間やデータ収集の都合で、一部の項目が欠けている。例えば、ある項目の欠損の有無と、その項目の値自体に関係性がある場合、単純集計では、欠損した値を含めた、この項目の真の平均などについて偏りがある結果が得られてしまう。

 従来のAIに入力する場合でも、欠損を考慮した形で入力しなければ、やはり結果の信頼性が低くなってしまう。

要件4 :データ自体に誤りが含まれる。ここでの「誤り」とは、入力者の人為的なミスはもちろん、データ収集システムの設計や実装の不具合に起因するものもあり得る。入力データが誤っていれば、単純集計によって意味のある結果は当然ながら得られない。

 従来のAIを利用する場合、誤りの法則性を自動的に推測できるわけではない。誤った入力が多い項目は、単純に「あまり信頼性が高くない項目」として扱われ、分析や予測に有効には活用できない。

要件5 :記録に残す基準や、分類の基準が一貫しない。担当者の違い、交代や組織の方針変更などで、記録の残し方や計上の仕方、分類の基準が一貫しない場合がある。

 担当者の入力基準が一貫している場合、入力者のIDが記録されていれば、従来のAIでも入力者間のばらつきには、ある程度対応できる。しかし、同じ担当者でも、その入力基準が、その日の気分や時間の経過によって変動するなど、複雑な場合は対応できない。

 担当者の交代や組織方針の変更に対しては、時期を調べてデータとして入力すれば、ある程度対応できる場合もあるが、基準の変更を直接反映できるわけではない。

 これら5つの要件は、データを人手で入力している場合や、非定型業務の中で収集され表計算ソフトなどに入力されたデータでは、よくある状況だ。