• UseCase
  • 医療・健康

ファイザーら、電子カルテから肺がん治療薬の効果判定AIの開発に大規模言語モデル「BERT」を利用

DIGITAL X 編集部
2023年12月21日

ファイザーは、宮崎大学、NTTデータと共同で、複数の医療機関が持つ電子カルテデータに対し肺がん患者への薬物治療効果を判定できるAI(人工知能)モデルを構築した。電子カルテに記載されている自由文など非構造化データを解析するために米Googleの大規模言語モデル「BERT」を活用した。2023年12月5日に発表した。

 ファイザーが宮崎大学、NTTデータと共同で構築した「薬物治療効果判定AIモデル」は、複数の医療機関が持つ電子カルテのデータから、肺がん患者に対する薬物治療の効果を判定するためのもの。2021年9月から2022年3月にかけて実施した研究では、複数の医療機関が保有する電子カルテデータに対し適用でき、臨床研究で用いられる評価項目を評価できることを確認したという(図1)。

図1:ファイザー、宮崎大学、NTTデータが構築した「薬物治療効果判定AIモデル」の研究概要

 電子カルテには、治療や投薬、予防などに伴う結果や経緯が記載されており、医療行為の結果や安全性といった「臨床アウトカム」が取得できると期待されている。だが臨床アウトカムに関わるデータの多くが、経過記録や画像検査レポートなどとして自由文で記載された非構造化データのため解析が難しい。

 今回の取り組みでは、非構造化データを解析するために、がん治療に関する文章に特化した大規模言語モデルを構築した。米Googleの大規模言語モデル「BERT」を特定領域に特化させるための仕組みである「ドメイン特化BERT構築フレームワーク」(NTTデータ製)を使うことで、類似表現を含む大量文書を学習させた。

 ファイザー、宮崎大学、NTTデータの3者は、非構造化データを用いた臨床アウトカムの評価手法の確立に向けた研究を2020年から進めてきた。宮崎大学が持つ電子カルテデータを使い、肺がん患者の薬物治療効果といったアウトカムを医師が評価し、その結果を自然言語処理する研究である。これまでに、治療効果の評価では、文章の肯定形・否定形や文脈が持つ情報の重要性が判明していた。

 BERTをがん治療特化した大規模言語モデルを使って3者は、宮崎大学医学部附属病院に通院または入院した肺がん患者の電子カルテ31例から、医師が評価しながら学習データを作成。同学習データに基づくファインチューニングにより、肺がんに対する薬物治療の効果を判定するためのモデルを構築した。

 その判定モデルを、「千年カルテ」として電子カルテデータなどの共有化に取り組むライフデータイニシアティブ(LDI)が保有する、6医療機関の肺がん患者713例の電子カルテデータに適用し、判定制度を宮崎大学の電子カルテデータだけの場合と比較検証した。

 さらに、判定モデルで推定した薬物治療効果と薬物処方などの構造化データを組み合わせ、疾患進行までの時間(TTP:Time-to-Progression disease)を治療ラインごとに推定し、人が抽出した結果と同モデルが推定した結果を比較評価することで実用性を検証した(図2)。いずれの検証でも、顕著な精度低下はみられず、学習データの追加などによって、さらなる精度向上が可能だという。

図2:人が抽出した結果と薬物治療効果判定モデルが推定した結果の比較

 今後は、より多くの施設からの大規模な電子カルテデータベースから臨床アウトカムを効率的に収集・活用できるようになれば、個別化医療の進展や適切な医薬品への早期のアクセスといった種々の効果が見込めるとしている。

デジタル変革(DX)への取り組み内容
企業/組織名ファイザー
業種医療・健康
地域東京都渋谷区(本社)
課題電子カルテデータからは、薬剤の治療効果や安全性などの臨床アウトカムを取得できる可能性があるものの、経過記録や画像検査レポートなどは自由文による非構造化データのため、解析が難しい
解決の仕組み通院または入院した肺がん患者の電子カルテデータを対象に医師が評価した学習データを作成し、大規模言語モデル「BERT」をがん治療特化にすることで「薬物治療効果判定AIモデル」を構築する
推進母体/体制ファイザー、宮崎大学、NTTデータ
活用しているデータ宮崎大学医学部附属病院、ライフデータイニシアティブ(LDI)が保有する電子カルテデータ
採用している製品/サービス/技術大規模言語モデル「BERT」(米Google製)、BERTをドメイン特化型にするための「ドメイン特化BERT構築フレームワーク」(NTTデータ製)
稼働時期2021年9月~2022年3月(効果検証のための研究期間)