• News
  • 共通

接客やロールプレイングなどのための対人用AIアバター、LLMと音声・画像生成AIの同期で人間らしさを演出

上田 羽純(DIGITAL X 編集部)
2026年5月1日

 面接向けAIアバターでは、面接対象者を公平に評価するための判断情報を取得するために、面接官のような緊張感を与えつつも、常に一貫した態度を保つ必要があるという。そのため、例えば対人AIエージェントを専門的に扱うPeopleXの「AI面接」では、リップシンクや相槌などは表現しつつも、表情や声色の変化、全身の動きなどは接客用AIアバターと比べて抑えている。

 一方、面談スキルなど教育用途のロールプレイング向けAIアバターでは、人と対面しているという臨場感や緊張感の演出がより求められる。さまざまな顧客の性格やシチュエーションを演じる必要があるからだ。

 例えばAVITAの「アバトレ」は、事前に決める人格(ペルソナ)に合わせて、感情表現の傾向を調整できる(写真3)。具体的には、受講者のあい昧な説明や不明瞭な発言に対して、声のトーンを変えたり、険しい表情を浮かたりすることで、顧客が満足できていない状況をフィードバックするなどである。

写真3:「アバトレ」で選択できる3DCGモデルの例(上段)とロールプレイング中の画面。アバターは種々のモデルから選べる

普及の鍵は負荷軽減や対人への引き継ぎ

 より人間らしさを演出する対人用AIアバターには課題もある。その1つが、生成処理に必要な計算リソースだ。複数の生成AIシステムをリアルタイムに動作させるには、それに応じた計算能力が必要になる。

 生成処理の全てをクラウドサービスとして実行すると、動作速度や回答精度が通信環境に依存する。逆にローカルで処理しようとすれば、高性能なコンピューターなどを設置するためのコストやサイズが問題になる。いずれの場合も、処理能力が追い付かなければ動作の遅れや不自然な動きにつながり、AIアバターの利点であるリアルタイム性やリアリティさなどを損なってしまう。

 Japan IT Weekの会場でも、通信速度が追い付かずに動作不良を起こす例が見られた。ネオジャパンの担当者は「クラウド生成AIサービスが多数出展されている展示会場など通信回線に余裕がない現場では、理想的な動きを表現することは難しい」と語る。

 回避策として、グループウェアやスマートフォンアプリの開発を手掛けるナノコネクトの「LinKa」は、お辞儀や手を上げるといった基本的な動作は事前にプログラムしたものを用意し表示している(写真4)。「人間らしい表現と必要負荷のバランスを取り、PCやスマートフォン上でも動作させる運用を想定している」(ナノコネクトの担当者)という。

写真4:ナノコネクトの「LinKa」のAIアバターの例

 AVACOMも、事前にプログラムした動作の比率を高くすることで処理の負荷を低減している。大人数が訪れるイベント会場などでは、手を振ったりポーズを取ったりといった動作は事前にテンプレートとして用意しておき、それを呼び出して表示する。

 もう1つの課題に、対応者がAIアバターから実際の人間に切り替わる際の断絶がある。一般にAIアバターでは、対応が難しい問い合わせなどは人間のオペレーターに引き継がれる。しかし、AIアバターの表現が人間に近づけば近づくほど、オペレーターの対応に切り替わった際に「対応者が別の人に代わってしまった」という印象が強調され、不安を覚えるケースが出てきているという。

 対策としてAVACOMでは、オペレーターが引き継いだ後も、独自技術により、オペレーターの動きをそれまで表示していたAIアバターに変換して表示する。発言内容はボイスチェンジャーにより元のAIアバターの声色に変え、オペレーターの動きをモーショントラッカーでAIアバターの動作として表現する。

 LinKaでは、オペレーターの対応に切り替えた後も、元のAIアバターを隣に表示する。「AIアバターが同席しているという感覚を演出することで安心感を与える」(LinKaの担当者)のが狙いだ。LiveX AIの担当者も「海外でも同様の課題が認識され始めており、対策を打つかどうかの検討が始まっている」と話す。

 複数の生成AIをリアルタイムに同期させるAIアバターは今後、より正確な応答に加えて、よりリアルな存在感や印象を表現することで、その用途が広がりそうだ。