- Column
- データ活用力をDataOpsで高める
データ活用成功の鍵は高品質なデータにあり【第2回】
データ(Data)と業務(Operations)を結びつけるというコンセプトである「DataOps」によるデータ活用プロジェクトを考える際は、機械学習による推論や未来予測といった活用方法についつい目がいきがちだ。だが、プロジェクトの成否は入力するデータが鍵を握っている。しかも単純に大量のデータを集めればいいのではなく、その“質”が重要になる。今回は、高品質なデータとは、どのようなもので、どう収集すればよいのかを解説する。
データ活用を事業貢献に結びつけられるかどうかの成否は、いかに品質の高いデータを用意できるかで決まる。「ビッグデータ」という言葉が注目されたことで、「大量のデータさえあれば機械学習やAI(人工知能)でよい成果が得られる」とのイメージが強まった。その結果、業務の副産物として得られた大量のデータを、品質は二の次に単純に貯めているだけというケースが多い。
だが「Garbage in, Garbage out(ゴミを入力するとゴミが出力される)」という格言があるように、機械学習やAIを使う場合でも入力するデータの品質は重要である。なぜなら、機械学習やAIは学習データのパターンをそのままで学習してしまうため、誤ったラベリングやノイズ、データの偏りがあると、何の疑いもなく、それで学習してしまうからだ。
たとえ学習した内容が不適切でも、機械学習やAIが判別して教えてくれることはない。そのため、データ量が多くなればなるほど、後から人が確認して原因を特定することが困難になってしまう。結局はデータを再取得する必要が出てくる場合が少なくない。
こうした無駄な作業を避けるためにも、品質に最大限の気を配って慎重にデータを取得することが重要だ。その上で、まだ収集数が少ない段階でも、早めにデータを活用してみて、問題が見つかったらフィードバックして品質を着実に改善していくことが大事である。
高品質なデータは目的ごとに異なる
まずは、どのようなデータを収集すべきかを考えていこう。
データ活用に使うデータの品質は、主に活用目的に合致しているかどうかで決まる。データの品質を判断するための評価観点は、表1のように分類できる。
表1の観点の多くはデータの活用目的によって決まるため、具体的な要求に落とし込もうとすると、目的によって千差万別に変化する。
例えば、設備の予知保全が目的ならば、通常の設備稼働に必要なデータに加え、設備の振動や稼働音、摩耗状態といった設備の経年劣化や異常予兆をとらえるためのセンサーデータ、過去の異常時の挙動を分析するための異常発生履歴が必要だろう。
モーターやベアリングといった回転体の異常を把握する目的ならば、回転数に応じた周波数の振動を計測することが重要となる。ノイズが混入すると微細な変化が捉えづらいので、ノイズをあらかじめ排除してデータの精度を高める必要があるかもしれない。異常発生履歴は抜けがなく、異常を判定するための一貫した基準が定義できるものが望ましい。
もし定番商品の需要予測をしたいのならば、過去の販売実績だけでなく、そのときの状況を示す関連データが正確に残っているかが予測精度の鍵を握る。精度を向上させるためには、実施したキャンペーンや宣伝の内容、販売店舗の変化、競合商品の登場など、トレンドや周期性だけでは説明できない販売変動の要因と、その影響を分析し、取り入れる必要がある。
最新の需要動向、予測対象期間の天候やイベント情報といったデータについても、予測するタイミングで正確に集められるかどうかが重要になる。