【盤點電腦視覺發展，從物件偵測到個人化機器人】李飛飛揭露電腦視覺3大進展

史丹佛大學AI研究中心主任李飛飛分享電腦視覺3大進展，包括能讀懂物件關係的物件偵測技術、辨識顆粒度更細緻的物件偵測與隱私技術，以及融合物件偵測、感知和互動能力的個人化機器人技術。（圖片來源／國科會）

電腦視覺發展超過50年，不只能辨識各種物件，也可以分辨物件之間的關係，還能看到人所看不到的細節，美國史丹佛大學AI研究中心更要用來打造幫忙做家事的機器人。

該中心主任也是ImageNet發起人李飛飛日前來臺，揭露了國際電腦視覺前瞻研究的新進展。她從電腦視覺的過去、現在和未來，點出三大技術議題，以及各階段後續衍生的最新研究進展。

例如在物件偵測領域，物件偵測AI解讀物件關係的能力，已從靜態圖像擴展到動態影片，能辨識影片中各種活動外，還能分辨參與人物與物件之間的關係。而且，物件偵測也發展出更進階、辨識顆粒度更細緻的應用以及隱私保護技術，比如人體動作偵測模型PriHAR，不只能準確辨識人類行為，還直接在鏡頭端模糊化人體影像，在源頭就保護個人隱私。

甚至，電腦視覺也開始融合至多種偵測、感知和互動能力的個人化機器人技術，來增強人類能力。這正是李飛飛團隊最新的研究課題，他們不僅建置機器人模擬環境平臺OmniGibson和基準測試BEHAVIOR，還成立一個包含實體機器人的實驗室，來讓實體機器人實際運用模擬環境中所學的知識，同時將現實中學習到的知識回饋至模擬環境，強化機器人學習能力。從這3大技術進展，可以清楚看到電腦視覺未來發展的重要方向。

電腦視覺進展1：物件偵測

李飛飛指出，電腦視覺研究的開端，是從打造能看人類所見的AI（Building AI to see what humans see）開始。為實現這個目標，專家先是研究人類視覺機制，比如大腦辨識物件的反應時間，他們還發現，大腦不同區域還負責不同物件的辨識。於是，專家仿造人類視覺的工作模式，從物件偵測（Object detection）著手，開啟電腦視覺領域的初始研究。

1970年代至1990年代的電腦視覺專家，以人工撰寫規則的方式，比如用幾何圖形切割，來教電腦辨識不同物件。這就是所謂的專家系統，但辨識效果並不好，準確率低。到了2000年左右，機器學習（Machine learning）概念出現，這是一種結合電腦程式的統計學方法，能透過機器自動產生模型，有別於專家系統靠人工撰寫一條條規則來辨識物件。此外，機器學習的辨識能力，比專家系統還要好。

在機器學習興起的時代，也催生出許多經典演算法，比如隨機森林、向量機、基礎網路，甚至是類神經網路。但真正改變遊戲規則的，是網際網路的出現。因為，網際網路讓資料取得更容易，而增加資料量，也成為提高模型表現的一大關鍵。

在那樣的時空背景下，李飛飛改變研究策略，從聚焦演算法來提高辨識準確率，回歸到「學習」本身。她想透過大量資料，來讓模型從中學習、找出規律，並要讓模型具備通才般的泛化能力。有鑑於同時期的資料集規模都不大，頂多3萬多張圖像而已，李飛飛乾脆與學生建立一個超大規模的電腦視覺影像資料集。

也因為網際網路興起，他們得以透過線上群眾外包，打造出ImageNet資料集，內含1,500萬張影像、超過2萬2千個分類，就像是電腦視覺界最大、最齊全的字典。ImageNet資料集也於2009年釋出。

這就是從資料面，來提高演算法表現的做法。李飛飛也自2010年開始，每年舉辦ImageNet影像辨識挑戰賽，來觀察用ImageNet資料集訓練出的模型，表現會如何。結果在2012年，深度學習模型AlexNet橫空出世，不論是辨識準確率還是錯誤率，都大幅優於傳統演算法，拿下該年冠軍。自此開啟深度學習元年，後來幾屆比賽的冠軍，都採用和AlexNet一樣的卷積網路（CNN），準確率越來越高，甚至超越人類表現。最終，比賽在2017年畫下句點，卷積網路也成為物件偵測的代表性架構。

不只要會辨識物件，還要懂彼此的關係

自此，基於深度學習的物件偵測在各領域大放異彩，同時，物件偵測的研究也往前了一步。

因為，李飛飛意識到，光會辨識物件還不夠，還得要懂物件之間的關係才行。於是，李飛飛實驗室展開一項專案，利用場景圖表徵（Scene graph representation），來對人類視覺中的物件關係編碼。意思是，給定一張圖，團隊要對圖中的物件特徵編碼（如大小），也要對物件的屬性編碼（如顏色、材質），還要對圖中人物的動作編碼，比如手持物品、某人站在某物後方等。這個做法，擴大了圖像標註的內容，要讓模型具備更廣泛的知識。

後來，李飛飛團隊將這些數據連同另一個大型資料集，整合為一個視覺基因資料集（Visual Genome Dataset），裡面包含10萬多張圖片、380萬個物件、230萬個關係和280萬個屬性，甚至還有540萬個描述和170萬組QA。

特別的是，這個具備豐富知識的資料集，還能用於零樣本學習（Zero-shot learning）。也就是說，用這個資料集訓練的模型，能具備舉一反三的能力（也就是泛化），就算是訓練資料集中從未見過的影像，也能根據學習道德知識來處理。

舉例來說，人騎馬與人戴帽子這兩個場景很常見，但馬戴帽子卻很少見，要讓模型學會辨識馬戴帽子，按傳統方法，就得收集大量這類照片來訓練模型。但這就是個挑戰，因為現實世界中，並未有足夠的照片來訓練模型。「但透過場景圖編碼來訓練模型，模型就能更好地辨識從未見過的場景或關係，」李飛飛說，因為模型能從學習到的物件關係，來推導新任務的解答。這也是零樣本學習的特色。

甚至，經視覺基因組資料集訓練的模型，還能執行多種任務，像是圖說（Image captioning），以及看圖說故事的圖片轉文字任務。這是李飛飛團隊在2015、2016年的物件偵測研究進展。

李飛飛團隊打造視覺基因組資料集，不僅有物件屬性，還包含物件關係說明，使物件偵測模型具備解讀物件關聯的能力，提高模型泛化能力。攝影／郭又華

從靜態物件關係偵測，擴展至動態世界

在視覺基因組資料集的基礎上，李飛飛與其團隊更進一步，把理解物件關係的概念，從靜態的圖像擴展應用到動態的影片上。

於是，團隊建立一套名為MOMA（Multi-Object Multi-Actor）的多物件多參與者資料集和基準測試（Benchmark），將活動分析拆分為子活動和動作，並附上參與者角色、物件以及彼此之間的關係說明。這個資料集能用來訓練模型，讓模型分析各種活動、理解人類參與者與物件的關係。

同時，他們也用MOMA資料集訓練出一套類神經網路HyperGraph Activity Parsing（HGAP），不只能辨識影片中的物件和人物，還能分辨物件與人物的關係，表現比其他基準模型要好。團隊的研究成果論文，也在去年獲AI頂級學術盛會NeurIPS接受。

不過，電腦視覺領域不只有物件偵測，還有許多領域是李飛飛認為重要的里程碑，如語義分割、圖像生成等。

李飛飛團隊進一步將物件關係解讀能力，從靜態的圖像擴大至動態的影片，並建置多物件多參與者MOMA資料集。攝影／郭又華

電腦視覺進展2：顆粒度更細緻的物件偵測

隨著技術發展，電腦視覺從物件偵測邁入另一個階段，也就是用顆粒度更細緻的物件偵測模型，能找出人眼難以辨識的事物。這也是李飛飛所描述的，打造AI來看人類看不見的事物（Building AI to see what humans don't see）階段。

比如，人類擅長辨識不同物件，但將上千種型號的汽車擺在一起，人類就不擅長分辨了。李飛飛團隊曾做過一項有趣的研究，利用車輛型號辨識技術，將辨識到的家戶車輛型號，與投票模式、教育程度和收入等類別做關聯（Correlate）研究。

顆粒度更細緻的物件偵測，能改善人類先天視覺上的不足，比如變化盲視（Change blindness）或視覺偏見。這些缺陷，讓人有時候看不見很多東西，進而引發嚴重問題，像是將手術器材遺留在病人體內，造成病人生命危險。

李飛飛團隊就與史丹佛醫學院合作，利用物件偵測模型，來辨識手術室中，顆粒度更細緻的小物件，比如醫用海綿，用這個方式來追蹤手術器材去向。另一個例子是，借助電腦視覺揪出人類沒注意到的偏見，比如Google研究院多年前就利用臉部辨識和語音辨識演算法，來計算好萊塢電影中，男女演員的演出時間差異。他們發現，男演員得到的演出時間，遠多於女性演員，這是一種產業偏見。

保護隱私的物件偵測技術也很重要

不光是發展顆粒度更細緻的物件偵測技術，李飛飛點出，能保護隱私的物件偵測技術也很重要，這是電腦視覺研究的另一進展。

傳統保護隱私的電腦視覺做法很多，有臉部模糊、降維、人體遮罩、同態加密等。但李飛飛認為，最有代表性的做法，是一項由她實驗室底下一位年輕學者Juan Carlos Niebles所發起的研究：PriHAR。

PrivHAR的全名是PrivHAR: Recognizing Human Actions From Privacy-preserving Lens，直譯是從保護隱私的鏡頭來辨識人類動作。一如其名，研究團隊不只設計出保護隱私的人體動作辨識演算法，還開發一款特殊鏡頭，能將捕捉到的影像，在鏡頭端就先模糊化人體特徵，讓人認不出來，達到保護效果。

這就有別於傳統動作保護方法。因為，傳統隱私保護做法，是將正常鏡頭拍攝的清晰畫面，透過演算法模糊化，來遮蔽人體特徵，進而達到去識別化目的。但在過程中，就容易遭受有心人士的對抗攻擊。而PrivHAR的做法，直接在源頭解決這個疑慮。

電腦視覺進展3：增強人類能力

李飛飛眼中的電腦視覺下一步是什麼？

答案是增強（Augument）人類能力。這是她點出的電腦視覺發展第3階段，打造AI來看人類想看見的事物（Building AI to see what humans want to see）。

比如透過人機協作，可減少醫療錯誤造成的傷害。在COVID-19疫情爆發前，李飛飛團隊就展開一項手部衛生偵測專案，在院內消毒站的高處，放置深度感測器，搭配動作偵測演算法，來辨識醫護人員是否消毒雙手。經過人工監督與電腦視覺偵測對比，團隊發現，AI不僅省時省力，還不會因疲勞而錯抓或漏抓沒做好的醫護人員，這項應用在疫情爆發時，正好發揮強大作用。其他增強例子，還有用電腦視覺來監測ICU患者活動，或是長者起居，來分別協助醫護掌握患者康復狀況以及長者生活安全。

但對李飛飛來說，以AI增強人類能力最有影響的應用是個人化機器人，這也是她近年投入的研究課題。在高齡化、勞力越趨稀少的情況下，融合電腦視覺、感知和互動能力的個人化機器人，就能緩解問題，協助人類生活。

於是，她與團隊先調查民眾對機器人的需求。「這很重要，」李飛飛解釋，因為知道目標，才能以人為中心，從需求出發，來打造個人化機器人。團隊根據美國政府和歐洲政府數據，建立了2,000多個家務活動，並在Amazon平臺上，詢問了1,400多人的意見。

他們得到的答案，多半是家務活動。有了這些資訊，李飛飛團隊選定1,000多個家務活動，並開始建置大型集料集和機器人學習基準，來讓機器人學習做家事、與人互動。為此，團隊先是掃描了15個真實世界環境，並建立1,200多類、共5,000多個3D物件模型，如開著的門或抽屜。這些物件涵蓋不同的物理、感知與互動特性，要讓機器人學習的模擬環境，盡可能貼近真實世界。

史丹佛大學團隊以Nvidia的3D設計模擬協作平臺Omniverse為基礎，打造出OmniGibson平臺，來加速機器人學習。這個平臺內含真實世界的物理特性，如熱效應、光照、反射、透明度感知、流體質量和變形等，也包含物體與環境的互動關係，還有各類複雜的活動。

一如既往，李飛飛團隊也設置一套大型的機器人模擬基準測試BEHAVIOR，以多元的環境來評估機器人能力。

儘管李飛飛團隊花了3年多執行這個大型專案，但現今的演算法，仍無法讓機器人通過測試。這表示，機器人研究還有很大的進步空間。於是，史丹佛大學團隊繼續建立一個專門實驗室，擺放一個實體機器人，來將在模擬環境中學習的機器人，也進入現實世界中活動；同時，他們也要將現實世界活動的機器人數據，回饋至模擬環境中，來強化機器人的學習能力。

盤點電腦視覺發展3大階段，李飛飛看好增強式AI發展，因為，AI不是取代人類，而是能在以人為本的原則下，融合多領域知識與技能，來增強人類生活和福祉。

李飛飛團隊正研究個人化機器人，建置了機器人學習環境平臺OmniGibson之外，也打造機器人模擬基準測試BEHAVIOR。攝影／郭又華

電腦視覺為何成為AI顯學

美國史丹佛大學AI研究中心主任李飛飛以演化角度，點出電腦視覺成為AI發展顯學的原因。她指出，在地球歷史上，5.4億年至5.3億年間，其中短短1千萬年發生寒武紀大爆發，出現各種構造複雜的生命體。澳洲動物學家Andrew Parker甚至認為，這是由視覺進化驅動的物種大爆發，動物能感知到光和外在世界，因此展開激烈的演化競賽。

此後動物繼續演化，發展出重要的神經系統以及最終的智能（Intelligence）。5.4億年後，人類出現，智能已達非常高的水準，是人類從事各種活動的基石。比如，「我們用視覺智能在世界中移動，我們用它來改變事物，我們用它來交流、娛樂，」李飛飛指出，正因為視覺對感知世界如此重要，「身為一個電腦科學家，當我們觀察人類智能，再想想自己能賦予機器什麼能力，就備受啟發。於是，電腦視覺就有了有趣的開始，」她說。

也就是，在圖靈提出著名的圖靈測試後10多年，1966年，麻省理工學院一位教授展開一場夏日計畫，要用一個暑假來實現電腦視覺任務。現在看來雖然天真，但數十年來，AI已有不少重大突破，視覺更是不可或缺，在許多前沿技術處處可見，比如自駕車辨識道路狀況，以及近來爆紅的生成式AI，如文字轉圖像模型DALL-E 2和Stable Diffusion。

「物種發展視覺花了5.4億年，電腦視覺領域則發展70年，」李飛飛點出，現在的電腦視覺技術正在發展旅途中，還可分為3大階段：打造AI來看人類看見的事物、打造AI來看人類看不見的事物，以及打造AI來看人類想看見的事物。

熱門新聞