Google研究人員在GECCO 2020會議上,發表具有自注意力(Self-attention)瓶頸的人工智慧代理AttentionAgent,研究人員運用不注意視盲(Inattentional Blindness),讓AttentionAgent具有選擇性注意力,能夠忽略不重要的細節,相較於傳統方法,代理泛化學習參數少了1,000倍,可以更好地處理複雜的電腦視覺任務。

不注意視盲是一種人類心理現象,由於選擇性注意力,因此人們會漏看視野裡部分東西,Google提到,這種選擇性注意機制,讓人們可以專注於重要的事物上,而不分心於無關緊要的細節,他們相信這種機制可以讓人們濃縮感官資訊,成為一種夠簡潔的形式,用於未來的決策上。

盡管選擇性注意力看起來像是種限制,但Google認為,從自然界觀察到的這種瓶頸,可用於改善機器學習設計,透過模仿讓人工智慧學習,生物能夠高效能解決任務的方法。過去的深度增強學習,都讓人工智慧代理能夠存取完整的視覺輸入,而Google現在以注意力限制,來減少人工智慧代理存取視覺輸入,以提高系統效能,不只可以大幅減少需要的參數,而且因為代理看不見部分視覺輸入,因此剛好能避掉那些可能造成混淆的內容,而且查看代理把注意力集中在什麼部分,還可以為其決策提供視覺的可解釋性。

過去也有類似的研究,利用稀疏性來限制輸入內容,而AttentionAgent則是從人類的不注意視盲獲得靈感,當大腦付出努力參與任務時,大部分的注意力會集中在與任務相關的元素上,暫時對其他訊號視而不見。為了要實現這件事,Google將輸入的圖像分割成幾個小區塊,然後修改自注意力架構來模擬小區塊間的投票,選出重要的子集,AttentionAgent會忽略不重要的部分,僅利用重要區塊做決策。

關鍵要素除了視覺輸入的擷取之外,關聯這些要素隨時間變化的能力也很重要,像是棒球比賽中的打者,必須利用視覺訊號來連續追蹤棒球的位置,以預測能夠打擊到球的位置,AttentionAgent則會利用長短期記憶(LSTM)模型,從重要的視覺區塊中擷取資訊,並在每個時步決定一個行動,LSTM會追蹤輸入序列變化,並利用這項資訊追蹤關鍵要素在不同時間的演變。

重要區塊的視覺化,可讓研究人員知道人工智慧下決策的方法,並說明大多數的選擇,是合理且符合人類直覺,可做為系統開發階段,好用的分析和除錯工具,另外,Google提到,人工智慧代理學會忽略非關核心任務的資訊,因此經修改還可以推廣應用到小環境任務。

Google的這項研究,證明僅讓人工智慧代理存取重要的區塊,無視場景其餘的部分,可以提升代理泛化(Generalize),用於解決其他任務能力,像是在VizDoom TakeCover環境接受訓練的人工智慧代理,也能夠在其他牆壁較高、地板貼圖不同,或是更多令人分心標誌的環境下生存。

這樣的成果可以被應用在自動駕駛上,應用晴天資料集學習駕駛的代理,也能夠將駕駛技能轉移到晚上或是下雨天,AttentionAgent不僅能夠解決CarRacing-v0任務,在其他惡劣環境中,也能達到相近的效能,泛化需要的參數比慣用的方法少1,000倍。

不過,即便AttentionAgent能夠適應環境修改,仍有其限制,像是原本周圍都是綠地的賽車背景,一旦換成YouTube影片便會失效,又或是更換成均勻的雜訊時,人工智慧代理的注意力模組便會失效,Google提到,他們用於選擇重要視覺區塊的方法仍不夠強健,不足以應付更複雜的任務,因此他們接下來會發展,能從視覺輸入擷取有意義特徵的方法。


Advertisement

更多 iThome相關內容