• News
  • サービス

類似画像検索や特定物体の検出などが可能な画像認識サービス、ドコモが開始

DIGITAL X 編集部
2021年3月12日

画像認識によって文字認識や類似画像の検索などを可能にするクラウドサービスをNTTドコモが2021年2月24日に開始した。法人向けの「ドコモ画像認識プラットフォーム」に、それぞれの画像認識エンジンを追加して提供する。学習済みモデルや、複数エンジンを集約する機能も用意した。同日に発表した。

 NTTドコモはこのほど、法人向けのクラウドサービス「ドコモ画像認識プラットフォーム」に、4つの認識エンジンを追加し、それぞれのサービスを開始した。具体的には、文字認識、類似画像検索、特定物体認識、人間の姿勢推定の4つである(図1)。これまでは物体検出と一般物体認識のエンジンを提供していた。

図1:「ドコモ画像認識プラットフォーム」が提供する画像認識エンジンの種類

 文字認識では、ゼッケンや血圧計の画面などの画像から文字領域を検出して認識する。類似画像検索は、物体の形状や色・柄などを元に類似画像を検索する。特定物体認識では、画像から事前に登録した特定の商品かどうかを認識する。姿勢推定では、人物の画像から各関節の位置・状態を認識し姿勢を推定する。

 ドコモ画像認識プラットフォームでは、用途別の画像認識エンジンに対し、学習モデルの作成とAPI(アプリケーションプログラミングインタフェース)を提供する(図2)。エンジンの追加に併せて、共通の学習済みモデルと、複数の認識エンジンを1つのAPIに集約する機能も追加した。

図2:「ドコモ画像認識プラットフォーム」の概要

 学習済みモデルとしては、画像認識システムでよく使われる、物体や文字などについての学習済みのモデルを用意する(表1)。画像データの収集や学習作業を不要にすることで、サービスの利用開始までの期間を短縮する。

表1:「ドコモ画像認識プラットフォーム」が用意する共通学習済みモデル
対象認識エンジン共通学習済みモデル
物体検出
一般物体認識年齢・性別・感情の推定、ファッション、食べ物、シーン、ランドマーク、花
文字認識ゼッケン、活字、手書き
姿勢推定

 APIの組み合わせ機能は、複数のエンジンを1つのAPIに集約することで、それらが連携した機能を実現するためのもの。アプリケーション側で連携機能を開発する必要がなくなる。

 組み合わせられるのは、物体検出と、一般物体認識/文字認識/類似画像検索のうちいずれか1つ。例えば、画像中の人物の属性を分析したり、伝票に書かれた文字を文字認識でテキストデータに変換したりが可能になる。

 ドコモ画像認識プラットフォームの利用料金は、共通学習済みモデルを利用する場合、1エンジン・1学習モデル当たり月額5万5000円(税込、以下同)、API組み合わせの利用が1組み合わせ当たり月額8800円など。利用企業独自の学習モデルを作成する「カスタム学習モデル」を利用する場合は、基本料金が月額11万円。