• Column
  • 不完全・少量の“レガシーデータ”をAIで活用する

AIシステムに組み込むドメイン知識の実際【第3回】

松崎 潤(日本TCS IoT戦略本部 シニアデータサイエンティスト)
2021年5月6日

レガシーデータの各要件に対応する数理モデルを構築する

 ではなぜ、AIシステムにドメイン知識を組み込めば、レガシーデータからも意思決定に有用な予測や分析が可能になるのだろうか。レガシーデータの要件である、(1)少量である、(2)一部期間が欠損している、(3)一部項目が欠損している、(4)誤りがある、(5)収集や分類基準が一貫していない、のそれぞれについて、その理由と、どのようなドメイン知識を組み込めば良いのかを説明する。

(1)少量である ← ドメイン知識を数理モデルに組み込み、モデルの挙動に制約を与える

 一般的に使われているAIシステムでは、特定業務や分野のドメイン知識を前提としない汎用的な数理モデルが使われている。汎用的とは、「ある要素に対して他のデータや要素が必ず負の相関を持つ」など、人間が前提としている知識が組み込まれていないという意味だ。

 汎用的な数理モデルは、どんなデータも学習できるような柔軟性を持っている。そのため、学習時に与えたデータに合わせすぎて、学習時と異なるデータが入力されると、非現実的な値を出力するということが起こりやすい。

 これに対しドメイン知識を数理モデルとして組み込むと、数理モデル内部の要素やデータの間の関係に制約が入り、AIシステム中の数理モデルが現実に合った挙動を示すようになる。学習時と異なるデータが入力された時にも、現実的な値を出力するようになる。

(2)一部期間が欠損している ← ドメイン知識を動的モデルとして与え、データに対応する値をシミュレーションで得る

 動的モデルとは、現在までの状態の履歴から、次の時点の状態を予測するモデルのことである。状態とは、動的モデルの中で、時間の経過とともに変化していく要素の値のことだ。

 AIシステムの中に組み込む数理モデルとして動的モデルを与えれば、データの有無に関わらず状態をシミュレーションできる。存在するデータが状態に対応して観測されているとすれば、一部の期間のデータが欠損していても、欠損した時点の状態を推定し、AIシステムの学習が可能になる。

(3)一部項目が欠損している ← 欠損している値をモデル中の未知の値として設定し、推定する

 欠損している値についても、一定のドメイン知識が存在することが多い。例えば、おおまかな値の範囲、前の時点からの変化の大きさの範囲、同じデータ点の中での異なる要素との相関関係などである。

 そうした欠損している値をモデル中の未知の値(パラメータ)として設定し、これらのドメイン知識を数理モデルに組み込むことで、AIシステムによりデータから欠損している値を推定できる。

(4)誤りがある ← 誤りのパターンをモデル化する

 入力ミスによる数値の誤りにはパターンがある。正しい数値に対して「1桁だけ誤っている/抜けている」ことがほとんどだ。また、データの収集や記録する過程のシステム実装に誤りがあれば、負の値や大きな値が異常値として記録されることがある。

 このような誤りのパターンを、真の値と、それに対応する入力値の関係を表す確率的なモデルとして構築すれば、データに含まれる誤りに強い分析や予測、意思決定が可能になる。

(5)収集や分類基準が一貫していない ← 基準が異なる可能性があるデータをグループ化し、基準の違いを考慮する

 担当者の違いや交代、組織の方針変更などで、記録を残すかどうかや、どのカテゴリに分類するかの判断基準が一貫しない場合がある。この場合はまず、基準が異なる可能性があるデータをグループ化し、グループ間における基準のばらつきや違いをモデル化する。担当者や時期によって、どのように基準が変わったかの情報が手に入るなら、基準の変化を直接モデル化する。

 そのモデル中で、真の値と記録された値を分け、それらの関係が基準の違いにより変わっていくとするモデルを構築すれば、収集や分類基準が一貫しないデータからも的確な分析や予測、意思決定ができる。

 レガシーデータの各要件について、対応するドメイン知識とそのモデル化の例を紹介してきた。複数の要件が重なっている場合は、それぞれに対応するドメイン知識をモデル化し組み込むことになる。

 次回は、ドメイン知識を組み込んだAIシステムの適用可能性について考えるとともに、ドメイン知識を数理モデル化する過程そのものが組織の意思決定に良い影響を与えることを紹介する。

松崎 潤(まつざき・じゅん)

日本タタ・コンサルタンシー・サービシズ(日本TCS)IoT戦略本部 シニアデータサイエンティスト。東京大学にて博士(農学)を取得後、北海道大学、農業生物資源研究所(現農業・食品産業技術総合研究機構)、理化学研究所にて研究員を務め、ドメイン知識のモデル化に基づくデータ分析を植物科学に導入した。その後、データ分析企業に転じて様々な業種のプロジェクトに従事。現職では製造業をはじめとする顧客向けに、データとモデルを用いた分析、予測および意思決定に関する技術の提案と開発に携わっている。