• News
  • 共通

生成AI+RAGを利用するための社内データの前処理用テンプレート、セゾンテクノロジーが提供開始

DIGITAL X 編集部
2025年7月29日

生成AI(人工知能)技術に自社情報などを反映させるRAG(Retrieval-Augmented Generation:検索拡張生成)技術を利用する際に発生する社内データの前処理のためのテンプレート(ひな形)をセゾンテクノロジーが2025年7月23日から順次提供する。PDFや画像などからのテキストデータ抽出などを自動化する。同日に発表した。

 セゾンテクノロジーの「AI前処理テンプレートシリーズ」は、生成AI(人工知能)技術の回答精度を高めるために必要なデータの前処理を自動化するためのテンプレート群。自社情報などを反映させるRAG(Retrieval-Augmented Generation:検索拡張生成)技術を利用にする際に、PDFや画像など、さまざまな形式の非構造化データからRAG技術が利用できる構造化データを作成する。同社のクラウド型データ連携基盤「HULFT Square」上で動作するスクリプトとして提供する(図1)。

図1:セゾンテクノロジーの「AI前処理テンプレートシリーズ」は、同社のクラウド型データ連携基盤)「HULFT Square」上で動作するデータの前処理のためのスクリプト群である

 同社による検証では、同社製品の価格表PDFをQA形式に変換する前処理では回答精度が30~50%から80~90%にまで向上したという。PDFからのテキスト抽出では平均約60%、画像からのテキスト抽出で平均約50%の作業時間の削減が図れたとする。

 AI前処理テンプレートシリーズとして10種類のテンプレートを提供する(表1)。大きくは回答精度を高めるためのものと、データ抽出の省力化、データ格納の省力化の3分野に分かれる。

表1:AI前処理テンプレートシリーズは10種類のテンプレートを用意する
用途処理内容テンプレート名処理の概要提供開始時期
回答精度の向上QA形式への変換AI前処理 PDFからQA表作成マニュアル類のPDFデータからQA形式に変換した構造化データをCSV形式で出力する2025年7月23日
AI前処理 ExcelからQA表作成ExcelデータからQA形式に変換した構造化データをCSV形式で出力する2025年9月予定
AI前処理 JSONからQA表作成ECサイトなど外部システムのJSON形式の複雑な階層構造のデータからQA形式に変換した構造化データをCSV形式で出力する2025年9月予定
AI前処理 XMLからQA表作成階層構造やタグが複雑なXMLデータからQA形式に変換した構造化データをCSV形式で出力する2025年9月予定
クレンジングAI前処理 HTMLタグの削除企業Webサイトや社内ポータルサイトなどのHTMLドキュメントからタグを除去しマークダウン記法で出力する2025年8月予定
AI前処理 特殊文字・記号の削除HTMLドキュメントから特殊記号や記号を削除しテキスト形式で出力する2025年8月予定
データ抽出の省力化ドキュメントからのテキスト抽出AI前処理 PDFからテキスト抽出スキャンしたPDFからテキストを抽出する2025年8月予定
画像からのテキスト抽出AI前処理 画像からテキスト抽出ホワイトボードを撮影した写真や手書きの議事録などの画像からテキストを抽出する2025年8月予定
音声からのテキスト抽出AI前処理 音声からテキスト抽出会議の録音などの音声データからテキストを抽出する2025年9月予定
データ格納の省力化エンベディングAI前処理 エンベディング&ベクトルDB格納テキストや構造化データなどのインプットデータを数値ベクトルに変換する2025年9月予定

 セゾンテクノロジーによれば、社内データを生成AI技術で利用する際には、生成AI技術が扱いやすい構造への加工や適切な意味づけなどの前処理が必要になる。しかし前処理のに必要なノウハウや作業工数の確保が課題になっている。