• Column
  • 不完全・少量の“レガシーデータ”をAIで活用する

分析対象になるデータの多くは少量で不完全【第1回】

松崎 潤(日本TCS IoT戦略本部 シニアデータサイエンティスト)
2021年3月3日

新型コロナウイルス対策に関わるデータはレガシーデータの代表例

 レガシーデータの例には、私たちに大きな影響を与えている新型コロナウィルス対策に関わる日本のデータがある。具体的に説明しよう(図1)。

図1 新型コロナウイルス感染症に関わる過程とデータの位置付け。状態に関わらず、検査を経て陽性にならなければ、データとして報告されず認識できないことに注意が必要である

 2021年1月時点で、厚生労働省が公表しているデータは、PCR検査実施数、陽性者数、入院治療等を要する者の数、重症者数、退院又は療養解除となった累計人数、および累計死亡者数である。これらは、毎日の集計締め切り時間までに各都道府県から報告された数であり、PCR検査結果の確定、入院、死亡といったイベントの発生からは遅れがある。

 各都道府県ではPCR検査の陽性確定日や、症例によっては発症日も公開している場合もある。だが、これらは厚生労働省が公表しているデータには含まれていない。重症患者として数える基準も、都道府県によってそれぞれ異なっている。

 新型コロナ対策のために私たちが本当に知りたいことの1つは、今後、重症患者数を医療体制の容量を超えない数に抑えられるかである。

 上記のような不完全なデータを元に、将来の重症患者数の予測をするにはどうすれば良いだろうか。新型コロナウイルス対策の専門家が種々の提言をしているが、彼らは上記のような不完全なデータから、どのように状況を把握し、予測しているのだろうか。

 新型コロナの感染患者が、入院が必要なほど重症化するまでには、感染、他人への感染性の獲得、発症、重症化といった複数の過程を経る。これらの過程は数理モデルで表現できる。

 数理モデルとは一般に、現実世界において、数値やカテゴリの形で計測または表現可能な状態の間の関係や、時間の経過に伴う推移を、数式の形で表現したものである。例えば感染に関しては、「免疫のない人が他人への感染性を持つ患者と接触すると、ある確率で感染する」という過程をモデル化し数式で表現できる。

データの不足をドメイン知識に基づく推定値や関連するデータで補っている

 一方で、現実に得られているデータは、このモデルで表現できる現象に対して非常に少ない。

 例えば、感染日や他人への感染性を獲得した日は、接触者を追跡するなどして感染イベントを特定できる少数のケースを除き、基本的には知ることができない。日々発表されるPCR検査の陽性者数は、発症者や、その濃厚接触者が中心で他人への感染性を持つ患者の一部に過ぎない。

 感染者が発症する割合や、発症者が重症化したり死亡したりする割合も、気候、感染者の条件や医療体制により異なる。また回復後に獲得する免疫がどれだけ強く、持続するかも不明である。

 つまり、感染拡大過程の全体像を把握し、確信を持って将来の入院患者数を予測するだけのデータがそろっていないのだ。

 そのため、今後の感染の推移に関して公開する指標としては、将来の感染者数や入院患者数、死亡数の予測ではなく、1人の感染者が感染性を持っている間に何人に感染させるかを示す実効再生産数を用いている。

 しかし、この実効再生産数も推定値であり、感染から報告までの遅れに強く影響される。本来は感染から発症とPCR検査、そして検査結果の確定と、発表までの日数を知る必要がある。だが実際は、詳しく調べることができた少数の例から求めた日数を使っているのが現状だ。

 米Googleが公表している『COVID-19 感染予測(日本版)』では、上述した感染過程の数理モデルをさらに改良し、公開データのみから、将来の感染者数や入院患者数、死亡数をある程度の正確さで定量的に予測している。

 そこでは、データを都道府県別に分けたうえで、人の移動や医療体制のデータを利用し、さらにPCR検査で把握されていない感染者からの感染拡大を考慮することで実現している。

ドメイン知識によりAIを使ったレガシーデータの活用が可能になる

 このように、限られたデータから必要な意思決定を下すためには、推定の対象を現実的に可能なものに変更したり、関連する別の現象のデータを加味したりする必要がある。

 このとき、現実的に推定可能な値や、関連する現象を見極めるために使われているのが、分析・予測したい業種や業務の知識と経験や、関連する学術分野の知見である。これらを「ドメイン知識」と呼ぶ。

 上記の新型コロナ対策における専門家なども、入手できたデータに、感染症や医療に関するドメイン知識を意識するしないにかかわらず適切に組み合わせることで、将来の感染者数や入院患者数、死亡数を大まかに予測しているはずだ。

 今回、新型コロナウイルス対策におけるレガシーデータを例に、それを活用して予測や意思決定を下すために、ドメイン知識が役立つことを説明した。

 次回は、ドメイン知識がビジネス領域でも有効なことを示すために、筆者が提案し開発した、交換部品の需要予測におけるレガシーデータの活用について紹介する。ドメイン知識の一般的な活用方法などは、その後に改めて説明したい。

松崎 潤(まつざき・じゅん)

日本タタ・コンサルタンシー・サービシズ(日本TCS)IoT戦略本部 シニアデータサイエンティスト。東京大学にて博士(農学)を取得後、北海道大学、農業生物資源研究所(現農業・食品産業技術総合研究機構)、理化学研究所にて研究員を務め、ドメイン知識のモデル化に基づくデータ分析を植物科学に導入した。その後、データ分析企業に転じて様々な業種のプロジェクトに従事。現職では製造業をはじめとする顧客向けに、データとモデルを用いた分析、予測および意思決定に関する技術の提案と開発に携わっている。