• News
  • 共通

対話型AIアプリケーションなどの実行環境、米NVIDIAが提供開始

DIGITAL X 編集部
2021年8月11日

対話型のAI(人工知能)アプリケーションなどの実行環境の提供を、米NVIDIAが開始した。深層学習における推論処理を高速化することで、検索エンジンや広告レコメンデーション、チャットボットなどの性能を高められるとしている。2021年7月20日(米国時間)に発表した。

 米NVIDIAの「TensorRT 8」は、対話型AI(人工知能)アプリケーションの実行環境の最新版。同社製GPU(画像処理プロセサ)上で動作するソフトウェアライブラリだ。深層学習(ディープラーニング)における推論処理を高速化することで、AIアプリケーションの品質と応答性を高められるという(図1)。言語クエリの推論時間は従来の半分になるとする。

図1:深層学習の推論処理の高速化を図った「TensorRT 8」の利用のイメージ

 TensorRT 8は、業種・業務を問わず利用できる。既に利用が可能で、先行企業はAIアプリケーションの処理性能を高めている。例えば、オープンソースAIを手がける米Hugging Faceは、テキスト分析やニューラル検索、対話型アプリケーションを大規模に実行できるAIサービスの開発にTensorRT 8を使用する。自然言語処理モデル「BERT」での推論におけるレイテンシー(遅延時間)を1ミリ秒に短縮したとしている。

 また医療技術などを手がける米GE Healthcareは、疾病の早期発見に向けて、超音波を使うコンピュータービジョンアプリケーションにTensorRTを用いる。スキャナーでの心臓表示検出アルゴリズムの性能を高められたほか、市場投入までの期間を短縮できたという。

 推論処理の高速化は主に、(1)スパース性と(2)量子化認識トレーニングの2つの機能により実現した。スパース性は、物事を特徴付ける要素がスパース(疎、まばら)にしか存在しないという性質で、演算処理を削減しニューラルネットワークの高速化を図る。

 量子化認識トレーニングでは、トレーニング済みモデルを使うことで、8ビット幅の整数「INT8」の精度でも正確な推論が実行できるとする。演算とストレージのオーバーヘッドが削減され、行列積和演算ユニット「Tensorコア」による推論の効率を高める。

 TensorRT 8は、NVIDIAの開発者プログラムメンバーは無料で入手できる。最新版のプラグインやパーサー、サンプルは、TensorRTのGitHubリポジトリからオープンソースとして提供される。