• Column
  • シアトル発、工藤卓哉のデジタル便り

Amazon Goを実現しているテクノロジーを考える【第3回】

工藤 卓哉(アクセンチュア)
2018年11月8日

前回、米シアトルに3店舗ある米Amazon.comの最新店舗「Amazon Go」でのカスタマーエクスペリエンス(顧客体験)について紹介し、レジのない店舗を出るときの“ドキドキ感”をお伝えしました。今回は、そのドキドキ感を実現しているテクノロジーについて、少し深掘りしてみましょう。

 Amazon Goの公式サイトには、残念ながら概念的な説明しかなく、利用されているテクノロジーについて詳細は記述されていません。そこで、レジなし無人店舗の実現に必要な技術を考えてみると、Amazon Goでは、センサーフュージョン、コンピュータービジョン、そしてディープラーニングといった技術がうまく活用されているようです。

写真1:「Amazon Go」の店内での筆者

 センサーフュージョンを簡単に説明すると、複数のセンシングデバイスから得られた時系列もしくはログデータをラップ(包み込む)し、場合によっては増幅させたり、データの座標を回転増幅させたり、他のセンサーデータと結合したりすることで、新たなベクトルとなる入力データを得る技術です。

人はさまざまな情報を統合しながら判断し行動している

 たとえば、車を運転していて信号で止まろうとするとき、人間は盲目的に足という筋力のみを一気に踏み込んでブレーキを制御している訳ではありません。車を信号機手前で停止させるためには、信号機までの距離を視覚により把握し、急ブレーキを避けて徐々にブレーキペダルを踏み込みながら、停止線までの距離が短くなっていく状態を逐次、視覚で捕捉し続ける必要があります。

 さらにドライバーは、足にかかる圧力を同時に感じつつブレーキを踏み込む角度を微調整しています。視覚と足の踏み込みによるブレーキの効きの遊びをも感じながら、最終的にはピタリと車を静止させているのです。

 つまり、減速していくスピードメーターの速度(というよりは人間の減速時の感覚と踏み込みペダルの油圧の遊びの感覚値)と、停止線までの距離という2つの入力データが複合的に脳に送り込まれ、それをインプットとしながら、最終的には停止という動作を完結させるよう制御しているわけです。こうした複数のセンサーから、新しい出力データを得る行為が、センサーフュージョンの概念です。

 コンピュータービジョンは、ソフトウェアによって人間の視覚に相当する機能を実現する技術です。Amazon Goではおそらく、コンピュータービジョンによるオブジェクト検知によって入店してきた人物をまず認識します。そこから、QRコードに紐づいている「多」数の個人のなかから、どの一人に一致させるかを分類するために、ディープラーニングを用いているのでしょう。

 どの商品を買ったのかの判定においても、コンピュータービジョンによるオブジェクト検知により商品(オブジェクト)を検知しています。ただし、ここでは、ニューラルネットワークの1つである「多層パーセプトロン」でオブジェクトを処理することで数値化したレイヤーに対し分類器を用いることで、最終的な商品購買を判定していると推定されます。

 ここにセンサーフュージョンを利用している可能性があります。どのように利用しているのかは憶測になってしまいますが、画像認識だけでは、あれだけ商品を出し入れしたりする消費者の行動を間違いなく把握し、正確に決済処理するのは限界があります。そのため、そこに重力センサーなどを掛け合わせることで、同一商品を複数手に取った際などに補足的にカウント精度を高めているといった可能性が考えられます。