- News
- 共通
倉庫や建設現場など広域にある複数のカメラ画像から個々作業員の行動を可視化する技術、NECが開発
物流倉庫や工場、建設などエリアが広い現場での作業員の行動を可視化する技術をNECが開発した。広域をカバーするために複数台設置しているカメラの映像に対し、自然言語でテキスト入力すれば、その内容を解析し該当する作業を行っている作業員を特定したり、特定の作業員を追跡したりできる。2025年8月27日に発表した。
NECが開発したのは、作業エリアが広く複数のカメラを設置する必要がある現場における作業員の行動を自然言語による指示で認識・追跡するための技術。例えば「棚から荷物を取り出している」といったテキストを入力すると複数台のカメラ映像から該当する作業(ここではピッキング)に当たっている該当する作業を特定する。物流倉庫や工場、建設現場などを対象に、2026年度までに実用化する計画だ。
開発したのは(1)テキスト入力から作業内容を事前学習なしに認識する技術と(2)複数のカメラを跨いでの人物の追跡技術の2つ。作業内容の認識では、まず先に開発していた「視覚言語モデル(Vision and Language Model:VLM)」を使って抽出するテキスト文の特徴量を抽出する。並行して、人と物体の関係性を捉える独自のAI(人工知能)モデルにより作業員が扱っている物体を特定し、その物体と作業員が映っている映像から特徴量を抽出する。2つの特徴量を比較・照合し種々の作業を認識する。これらの処理を事前学習なしで実行できるとする。
一方の人物追跡技術では、複数のカメラ映像から、作業現場のデジタルツインを構築し、作業員の位置を3次元座標で推定する。その作業員が複数のカメラを跨がって移動しても同定する。作業員の服装といった外見的特徴に頼らず、空間内での位置や移動パターンに基づいているのが特徴という。カメラの位置や姿勢などのパラメーターも自動で推定し、現場への導入の手間を軽減できるとしている。
NECによれば、広い作業エリア全体の作業行動を可視化するには、現場の映像データの収集とAIモデルの学習など事前準備に多くの時間や手間がかかるうえ、雑多な物体が混在している現場では作業内容の認識が難しい。複数のカメラを設置している場合は、個々のカメラ映像から作業者を特定した認識結果を作業者ごとに統合する必要があるが、外観的特徴に基づく従来技術では、同一人物を同定し続けるのは困難だった。