- News
- 共通
生成AI+RAGを利用するための社内データの前処理用テンプレート、セゾンテクノロジーが提供開始
2025年7月29日
生成AI(人工知能)技術に自社情報などを反映させるRAG(Retrieval-Augmented Generation:検索拡張生成)技術を利用する際に発生する社内データの前処理のためのテンプレート(ひな形)をセゾンテクノロジーが2025年7月23日から順次提供する。PDFや画像などからのテキストデータ抽出などを自動化する。同日に発表した。
セゾンテクノロジーの「AI前処理テンプレートシリーズ」は、生成AI(人工知能)技術の回答精度を高めるために必要なデータの前処理を自動化するためのテンプレート群。自社情報などを反映させるRAG(Retrieval-Augmented Generation:検索拡張生成)技術を利用にする際に、PDFや画像など、さまざまな形式の非構造化データからRAG技術が利用できる構造化データを作成する。同社のクラウド型データ連携基盤「HULFT Square」上で動作するスクリプトとして提供する(図1)。
同社による検証では、同社製品の価格表PDFをQA形式に変換する前処理では回答精度が30~50%から80~90%にまで向上したという。PDFからのテキスト抽出では平均約60%、画像からのテキスト抽出で平均約50%の作業時間の削減が図れたとする。
AI前処理テンプレートシリーズとして10種類のテンプレートを提供する(表1)。大きくは回答精度を高めるためのものと、データ抽出の省力化、データ格納の省力化の3分野に分かれる。
用途 | 処理内容 | テンプレート名 | 処理の概要 | 提供開始時期 |
---|---|---|---|---|
回答精度の向上 | QA形式への変換 | AI前処理 PDFからQA表作成 | マニュアル類のPDFデータからQA形式に変換した構造化データをCSV形式で出力する | 2025年7月23日 |
AI前処理 ExcelからQA表作成 | ExcelデータからQA形式に変換した構造化データをCSV形式で出力する | 2025年9月予定 | ||
AI前処理 JSONからQA表作成 | ECサイトなど外部システムのJSON形式の複雑な階層構造のデータからQA形式に変換した構造化データをCSV形式で出力する | 2025年9月予定 | ||
AI前処理 XMLからQA表作成 | 階層構造やタグが複雑なXMLデータからQA形式に変換した構造化データをCSV形式で出力する | 2025年9月予定 | ||
クレンジング | AI前処理 HTMLタグの削除 | 企業Webサイトや社内ポータルサイトなどのHTMLドキュメントからタグを除去しマークダウン記法で出力する | 2025年8月予定 | |
AI前処理 特殊文字・記号の削除 | HTMLドキュメントから特殊記号や記号を削除しテキスト形式で出力する | 2025年8月予定 | ||
データ抽出の省力化 | ドキュメントからのテキスト抽出 | AI前処理 PDFからテキスト抽出 | スキャンしたPDFからテキストを抽出する | 2025年8月予定 |
画像からのテキスト抽出 | AI前処理 画像からテキスト抽出 | ホワイトボードを撮影した写真や手書きの議事録などの画像からテキストを抽出する | 2025年8月予定 | |
音声からのテキスト抽出 | AI前処理 音声からテキスト抽出 | 会議の録音などの音声データからテキストを抽出する | 2025年9月予定 | |
データ格納の省力化 | エンベディング | AI前処理 エンベディング&ベクトルDB格納 | テキストや構造化データなどのインプットデータを数値ベクトルに変換する | 2025年9月予定 |
セゾンテクノロジーによれば、社内データを生成AI技術で利用する際には、生成AI技術が扱いやすい構造への加工や適切な意味づけなどの前処理が必要になる。しかし前処理のに必要なノウハウや作業工数の確保が課題になっている。