如何靠電腦視覺實現無人商店？關鍵是以合成影像擴大訓練資料量，提升AI訓練速度與辨識精準度

無人商店技術供應商AiFi與Amazon Go同樣主打拿了就走的無人商店AI技術。從2016年成立以來，全球已有25家商店部署AiFi的技術，不乏來自法國、英國、加拿大、波蘭等國的著名零售商，比如家樂福。

圖片來源:

圖/臺灣AI年會

Amazon Go在2018年正式營運後，用AI技術創造了新型態的無人商店，吸引了許多零售科技業者競相投入無人商店技術的開發行列，連臺灣都有業者投入，不過，要真正做到如同Amazon Go那樣大坪數、多種商品都能拿了就走的無人商店模式仍然非常困難，因為不只是AI技術難題，還有一個更大的挑戰必須克服才行。在今年台灣人工智慧年會上，一家同樣建立整套無人商店技術的新創AiFi共同創辦人鄭影，接露了他們如何打造出足以挑戰Amazon Go模式背後的關鍵。

全球已有25家商店部署AiFi的技術，不乏來自法國、英國、加拿大、波蘭等國的著名零售商，比如家樂福。AiFi的無人商店技術也可以大規模複製，預計一年內拓展到全球350家，甚至會落地亞洲。

鄭影透露，打造出無人商店的一大痛點，是資料多樣性不足的問題，得靠合成的影像資料（Synthetic Data），模擬出超商各種場景的影像來訓練AI系統，才能讓AI更精準的追蹤顧客軌跡、行為與拿取的商品品項。

無人商店AI系統訓練的一大關鍵：合成影像資料

AiFi不是第一家靠合成影像來訓練AI的無人商店業者，Amazon Go早在兩年前就曾揭露，核心技術Just Walk Out就是靠影像模擬器生成多元的購物場景與顧客消費情境，來擴大訓練資料量。

無人商店AI識別技術，一直以來都是電腦視覺領域的一大難題。這項技術有多難？協助開發Amazon Go核心技術Just Walk Out的前南加州電腦視覺教授Gerard Medioni曾揭露，無人商店系統包含了6個關鍵問題，分別是感測器融合（Sensor Fusion）、攝影機位置校正、人像偵測、物件辨識、姿勢辨識與行為分析（Activity Analysis），整合這6大技術，才能單靠電腦視覺，來識別每一個人在商店中的軌跡、行為與拿取商品，最終達成「拿了就走」的購物體驗。

鄭影進一步指出，無人商店的電腦視覺難題可分為三類。第一，是大規模場景下的顧客追蹤問題，比如在500平方公尺的超市中，同時追蹤500個人的購物旅程。第二，是顧客行為識別問題，包括顧客在哪裡、做了那些動作、何時與貨架接觸、拿了一項商品還是放回一項商品，尤其在真實情境下，不同顧客可能同時伸手拿取同一樣商品、交叉拿取商品，都會增加影像識別的複雜性。

第三，則是大量商品辨識問題，比如在一家50平方公尺的店面中，可能擺放了1,500種商品，又或是一家1,500平方公尺的商店中，可能涵蓋了3萬種不同品項的商品，AI系統必須能同時識別數千種商品品項，才能正確計算顧客的消費金額，「商品數量越多，AI辨識的難度就越大。」鄭影說。

「這三個難題都有一個痛點，數據從何而來？」鄭影指出，AI領域常聽到形容訓練資料的一句話：「垃圾進、垃圾出。（Garbage in, garbage out.）」顯示訓練資料之於AI的重要性。無人商店AI系統的開發挑戰，在於訓練資料難以涵蓋到各種商店場景、不同形式的貨架以及各種商品品項的資料，就連同一家店內，都可能因光照條件不同而產生多種影像資料。同時，影像的標註太耗時耗力，一家店內可能同時有上百位顧客、上萬種商品，要全數標註完成是一大挑戰。「如何實現數據的多樣性和完整性，成為非常大的難題。」

為此，AiFi與Amazon不約而同的都採用影像合成技術，生成大量訓練資料，再用來訓練AI系統。鄭影表示，這類作法的著名案例，就是Tesla與Waymo，透過模擬各種天氣下的路況，來訓練自駕車的能力。實際應用在無人商店的AI訓練中，AiFi打造了一個AI模擬循環作法（AI Simulation Loop），先模擬生成訓練數據，確保AI大腦擁有足夠的數據來進行訓練，下一步，將訓練完成的模型用於現實場景測試，再將實測結果回饋到模擬系統當中，針對辨識較差的場景生成更多影像資料，反覆優化AI模型。

如何靠模擬合成資料優化AI訓練流程？

鄭影以實際影片展示，這套影像模擬系統，已經能夠數位化一家200平方公尺的商店，模擬各種商店背景、貨架、商品擺放方式，也能模擬各個攝影機看到的視野，來優化攝影機的擺放位置與角度。在模擬顧客時，則可以控制人的密度、人數、消費行為，就連數位化的商品，都能模擬在不同光照之下，商品在攝影機畫面中的呈現。

鄭影也舉出兩個例子，來說明如何靠影像模擬生成，來優化AI訓練流程。其一，是在密集性的商品識別情境下，一張影像可能就包含了上百種陳列商品，若要以人工標註每張影像，假設以一張影像15分鐘來計，每人每天工作8小時，也只能標註32張訓練資料；不過，若採用合成資料的方式，在同樣的時間內，電腦可以生成500～1,000倍的訓練資料量，而且影像生成時，就已經預標註了每一種商品，能夠省去大量人工標註時間，還能根據商店實際要擺放的商品來生成影像，再進行模型訓練。

透過模擬影像的作法，也能細緻的模擬每一種商品在貨架上的排列方式，比如是整齊的陳列在貨架中、還是稀疏的擺放；若是稀疏的擺放，還需要考量到每個商品的朝向可能參差不齊，帶來更多商品陳列的可能性。「當每張圖擁有100種不同商品的時候，商品朝向的組合會呈指數型成長，」鄭影指出，用模擬影像的方式，可以列舉商品不同的擺放與朝向，生成足量的訓練資料。

模擬稀疏的擺放方式，各種商品擁有不同朝向。

模擬商品整齊的排列方式。

另一個例子，是在追蹤顧客動向時，隨著店內人數增加、場地更大，裝設的攝影機數量更多，若要同時追蹤每個顧客的行為，所需的運算時間也會成指數呈長，「許多零售場景下，會希望顧客追蹤即時且準確，這就加大AI識別的難度。」

鄭影指出，為了在一家700平方公尺的店內，即時追蹤100個人同時間的購物行為，「我們需要把產品解決方案，做得比高階技術（state of art）快一千倍，這時，模擬數據扮演非常重要的角色。」AiFi要透過合成大量數據，將模型訓練得更快、更小、更精準。但她並未解釋如何透過更完整的合成資料，來加快AI運算速度。

透過這套資料模擬系統，AiFi也能控制店內的人數、密度，並列舉每個人的服飾、動作、帽子、髮型、膚色，讓演算法更健全（Robust）。以此來訓練AI之後，AiFi也實際進行100位顧客在店內購物的壓力測試，在高密度的人群追蹤中，除了可以識別每個人的行動軌跡，也能標註出每個人的骨關節，包括手腕、手軸、肩膀等位置，來瞭解每位顧客的行為。

模擬商店內人群密度、人數，以及每個人的服飾、動作、帽子、髮型、膚色等。

靠AI標註出每個人的骨關節，包括手腕、手軸、肩膀等位置，來判斷每位顧客的行為。

無人商店AI技術可驅動更多智慧零售應用

「這套無人商店AI技術，驅動了更多智能零售場景的應用。」鄭影解釋，這套技術除了可以實現「拿了就走」的購物體驗，另一項特點，是在即時統計貨架上每種商品的剩餘數量後，能自動通知員工應補貨的商品品項與數量，並透過更精準的進貨，來解決商品庫存過多造成的損失問題。將顧客於實體店面的購物旅程數位化後，也能進行後續的智慧零售運用，比如依據顧客行為優化商品擺放位置，或進行個人化商品推薦。

無人商店AI系統訓練的一大關鍵：合成影像資料

如何靠模擬合成資料優化AI訓練流程？

無人商店AI技術可驅動更多智慧零售應用

熱門新聞