• News
  • 共通

テキストから意味を抽出し構造化する生成AIサービス、米dotDataが開始

DIGITAL X 編集部
2025年10月21日

テキストデータから意味を抽出し構造化する生成AI(人工知能)サービスを、データ基盤サービスを手掛ける米dotDataが開始した。テキストマイニング技術では難しい文脈や意図をLLM(Large Language Models:大規模言語モデル)を使って抽出し、データに意味ラベルを付与する。構造化データと組み合わせた分析に効果が得られるとしている。2025年10月15日に発表した。

 米dotDataの「dotData TextSense」は、テキストデータの文脈や意図を抽出し、意味ラベルとして付与することで構造化を図る生成AI(人工知能)サービス。ラベルを付与した非構造化データと構造化データを組み合わせた分析ができるようになるという。同社が提供するAI技術基盤「dotData Cloud」の1機能として提供する。

 dotData TextSenseでは、文脈や意図をLLM(Large Language Models:大規模言語モデル)を使って抽出する。これにより単語などの出現に依存する手法に比べ文脈を解釈できるとする。加えて、テキスト分析のための形態素解析といった前処理や、品質を左右する同義語・不要語の辞書の準備が最小限で済むほか、用途別のモデルの開発やツールが不要になるとしている。

 利用者は、自身で意味ラベルを定義するほか、dotData TextSenseが推奨するラベルを評価し、採用すれば良い。評価結果に応じて意味ラベル作成のためのプロンプト(指示文)が自動で調整され精度が高まっていくという。

 構造化した意味ラベルは、同社の機械学習基盤「dotData Enterprise」や特徴量エンジニアリングサービス「dotData Feature Factory」、データ分析基盤「dotData Insight」に入力して分析などに利用する。

 dotDataによると、企業が蓄積するデータの大部分がテキストデータであるものの、テキストマイニング技術では文章の文脈やニュアンスの理解が不十分で、その利用には専門スキルや辞書の整備が必要なため、テキストデータは限定的にしか分析されていなかった。