News
共通

対話型AIアプリケーションなどの実行環境、米NVIDIAが提供開始

DIGITAL X 編集部

2021年8月11日

対話型のAI（人工知能）アプリケーションなどの実行環境の提供を、米NVIDIAが開始した。深層学習における推論処理を高速化することで、検索エンジンや広告レコメンデーション、チャットボットなどの性能を高められるとしている。2021年7月20日（米国時間）に発表した。

　米NVIDIAの「TensorRT 8」は、対話型AI（人工知能）アプリケーションの実行環境の最新版。同社製GPU（画像処理プロセサ）上で動作するソフトウェアライブラリだ。深層学習（ディープラーニング）における推論処理を高速化することで、AIアプリケーションの品質と応答性を高められるという（図1）。言語クエリの推論時間は従来の半分になるとする。

図1：深層学習の推論処理の高速化を図った「TensorRT 8」の利用のイメージ

　TensorRT 8は、業種・業務を問わず利用できる。既に利用が可能で、先行企業はAIアプリケーションの処理性能を高めている。例えば、オープンソースAIを手がける米Hugging Faceは、テキスト分析やニューラル検索、対話型アプリケーションを大規模に実行できるAIサービスの開発にTensorRT 8を使用する。自然言語処理モデル「BERT」での推論におけるレイテンシー（遅延時間）を1ミリ秒に短縮したとしている。

　また医療技術などを手がける米GE Healthcareは、疾病の早期発見に向けて、超音波を使うコンピュータービジョンアプリケーションにTensorRTを用いる。スキャナーでの心臓表示検出アルゴリズムの性能を高められたほか、市場投入までの期間を短縮できたという。

　推論処理の高速化は主に、（1）スパース性と（2）量子化認識トレーニングの2つの機能により実現した。スパース性は、物事を特徴付ける要素がスパース（疎、まばら）にしか存在しないという性質で、演算処理を削減しニューラルネットワークの高速化を図る。

　量子化認識トレーニングでは、トレーニング済みモデルを使うことで、8ビット幅の整数「INT8」の精度でも正確な推論が実行できるとする。演算とストレージのオーバーヘッドが削減され、行列積和演算ユニット「Tensorコア」による推論の効率を高める。

　TensorRT 8は、NVIDIAの開発者プログラムメンバーは無料で入手できる。最新版のプラグインやパーサー、サンプルは、TensorRTのGitHubリポジトリからオープンソースとして提供される。