• Column
  • 大和敏彦のデジタル未来予測

止まらぬ生成AIの進化と活用上の課題【第85回】

大和 敏彦(ITi代表取締役)
2024年10月21日

生成AI(人工知能)技術の出現により、さまざまなものが変わっていこうとしている。ビジネスや生活でのチャットへの活用に加え、チャットサービス「ChatGPT」をベースにしたアプリケーションやサービスが生まれている。さらに「AIトランスフォーメーション」と呼ばれる変革も広がっている。今回は、AI技術の現状や課題からAI技術の将来を考えてみたい。

 生成AIの活用が広がっている。PwC Japanによる『生成AIに関する実態調査2024春』によれば、日本の大手企業の生成AI(人工知能)技術の活用において、「活用中」から「推進中」「検討中」までの合計が前回(2023年秋)の22%から91%にまで増加した。このうち「活用中」は43%と9ポイント増えた。

 進捗が進んでいる業界は上位から、通信、テクノロジー、サービス/接客業、公益事業/エネルギー、銀行/証券/保険/その他金融サービスである。活用対象は、事務作業の効率化や、チャット業務の自動化、新事業への展開などだ。活用効果も48%が「期待通り」とし、9%は「期待を上回っている」と回答している。生成AI技術を実業務へ適用する動きが加速している。

人間の能力に追い付き・追い越す領域が出現

 では、現時点のAI技術は、どこまで進化しているのか。会話能力や推論、マルチモーダル対応など人間の能力に追い付き・追い越す領域も現れている。以下、6つの各領域における進捗を見てみたい。

(1)会話能力の強化

 米OpenAIは、人間と同等か人間を越えるマシンを生み出すことを目指している。実際「ChatGPT 4o」では、高速化と言語能力の向上を図り、より自然な会話が可能になった。声のトーンや表情を読み取り、感情や非言語のジェスチャーを受け取れ、それらに対してトーンを変えた応答をするなど“人間らしさ”を持ったコミュニケーションを実現した。

 画像や映像などの視覚情報にテキスト、音声などを組み合わせたデータを使ってトレーニングしたモデルを採用することで、それぞれの情報を別々に処理するよりも早い応答時間を実現した。約50言語に対応している。同時通訳機能も、逐次通訳の目標である3秒に対応できるようになった。スマートフォンを使って人に近い反応速度で会話できる「アドバンスド・ボイス・モード」機能も発表している。

(2)推論機能の実現

 LLM(Large Language Model:大規模言語モデル)には、誤解や誤った情報を生成したり、数学などの複雑な問題には対応できないという弱点がある。これに対しOpenAIは、推論ができる「o1」というモデルを開発した。複数の思考ステップを踏み、異なる戦略を試したり、間違いを指摘したりすることで、間違いを起こす頻度を下げている。より難しい科学やプログラミング、数学などの問題を解決でき、研究・開発分野での成果が期待される。

(3)マルチモーダル能力の強化

 テキスト、画像、音声の各データを同時に入力・出力ができるマルチモーダル機能が進んでいる。例えば米Googleは、同社の生成AI「Google Gemini」において、より高度なマルチモーダル機能と総合的な解析能力を開発し搭載した。マルチメディアコンテンツの作成や画像キャプションを生成できる。「Chromebook」や「Google Workspace」に統合し、検索やメール、カレンダー、フォトの機能の最適化を図っている。

 生成する画像/映像の品質も高まっている。映像品質の向上により、俳優をスキャンし、そのデジタルモデルを映像に使うことも可能になりつつある。これに対し、演技へのAI活用を懸念するハリウッド俳優によるストライキも起こっている。俳優をスキャンしたデジタル肖像の使用権の保護が求められるようになっている。

(4)AIの信頼性向上 ハルシネーション防止

 ハルシネーション(幻影)とは、AIシステムが事実に基づかない情報を生成することである。学習した内容からは回答できない質問を問われた時に起こる。ハルシネーションに対しても改善がみられる。上述した推論機能もハルシネーションの防止につながる。

 またGoogleは、信頼できる組織が公開しているデータを取得した「Data Commons」により事実を確認したり、学習データを超えた関連情報を組み込んだりという改善方法を実現している。