• Column
  • DXのラストワンマイルを支えるAI-OCR

眠れる紙の文書を“宝の山”に変える「AI OCR文字認識サービス」

DXを支えるデータ活用の基盤づくりを推進

DIGITAL X 編集部
2025年1月24日

誤認識時の修正・承認フローを含めAI-OCRの使い勝手を高める

 東芝デジタルソリューションズのAI OCR文字認識サービスは、東芝が50年以上前に『郵便区分機』を日本で初めて製品化して以来のOCR技術の開発・運用ノウハウにAI技術を組み合わせている。組み合わせのメリットを田中氏は、「悪筆の手書き文字でも読み取れる認識精度の高さに加え、さまざまな記入形態でも読み取れる柔軟性の高さを実現できている点にあります」と説明する。

 悪筆については、従来のOCRが文字一つひとつの特徴に着目していたのに対し、AI-OCRでは前後の並びから文字列としての意味にも着目している。記入形態については、文書の限られた記入スペースに人が2行にわけて書き込んだり、書き間違えを訂正印を使って修正したり校正記号を使って挿入したりしたケースにも対応できるようになっている(図2)。

図2:「AI OCR文字認識サービス」よる文字認識の例。悪筆への対応だけでなく、複数行の記載や、訂正印・校正記号を使った文字の挿入などにも対応する

 さまざまな帳票や多種多様な文書に対応するため、東芝デジタルソリューションズのAI OCR文字認識サービスでは、実務的な活用支援機能として、(1)申込書など決まった書式を読み取る「定型読取」、(2)取引先によって書式が異なる請求書や納品書など非定型な帳票を読み取る「非定型読取」、(3)設計文書などの記載内容を全て電子化する「全テキスト読取」などを用意する。帳票の識別・仕分け機能やユーザー固有の用語を登録する個別辞書機能もある。

 こうした認識率の向上と並行して東芝デジタルソリューションズが力を入れているのが、誤認識が発生した際の修正・承認の容易さの実現である。「どれだけ認識率を高めても100%にはならない。誤認識の発生を前提に、修正などを容易にすることが、AI-OCRの使い勝手の向上につながるのです」と大石氏は説明する。

 具体的には、読み取り確度が低いと判定した文字を自動的に「?」へ置き換え修正が必要な箇所を明示する「リジェクト機能」や、修正・承認のワークフローを設定するための「管理機能」、伝票などで読み取った文字列から合計金額などを算出し数値の誤りをチェックする「認識結果チェック機能」などである。

 「アナログ情報のデータ化はAI-OCR活用の第1ステップに過ぎません。より重要なことは、AI-OCRで読み取ったデータを有効活用し、ビジネスの変革や創出につなげることです。当社のAI OCR文字認識サービスを導入された企業は、膨大な紙文書のデータ化による情報の有効活用に取り組まれています」と田中氏は改めて強調する。

 例えば大手の電力会社では、社内各所に散在している紙文書をデータ化し、別のデジタルファイルと一元管理することでナレッジベースとしての活用を推進している。また田中氏は、「データ活用への第一歩として、既存の文書管理システムにOCRでPDF化した文書をそのまま登録し、検索性を高めるといった使い方を進める企業もあります」と説明する。

業界ごとのデータ活用ニーズを踏まえパートナー連携を強化

 東芝デジタルソリューションズは今もAI-OCRの機能強化に取り組んでいる。2024年8月には複雑な帳票レイアウトや不規則な表構造を読み取る機能を更新・高度化、2024年度中には特定項目の自動読み取り機能を強化する予定だ。並行して生成AI技術を融合し、紙からデジタル化した情報を柔軟かつ自由に検索できる機能の開発も視野に入れている。

 さらに、AI-OCR活用の第2ステップ、第3ステップにつながるよう、データ活用環境の整備・提供に向けたパートナー企業との連携にも力を注いでいる。データの蓄積・活用のための基盤サービスを開発するDATAFLUCT(https://datafluct.com/)との協業が、その一例だ。今後は、各種業界に強みを持つパートナー企業なども積極的に開拓し、業界それぞれのデータ活用ニーズに沿ったAI OCR文字認識サービスの利用場面を拡大したい考えだ。

 大石氏は「紙文書の活用ニーズやデータの取り扱いに関する規制やガイドラインは業界ごとに異なっています。各業界の事情に精通した種々のパートナー企業と連携し、AI OCR文字認識サービスの導入効果の最大化を図ると同時に、データとデジタル技術を活用したお客様のイノベーションに貢献していきたいと願っています」と力を込める。

お問い合わせ先

東芝デジタルソリューションズ株式会社

ICTソリューション事業部 データ事業推進部 新規事業開発担当

URL:https://www.global.toshiba/jp/products-solutions/ai-iot/mojigazou.html

eメール:tdsl-OCR-cloud@ml.toshiba.co.jp