臉書發表了一種新的機器學習方法Expire-Span,該方法的重點,是讓機器學習可以實現人類記憶的特性--遺忘,官方提到,這是一個創新的方法,讓神經網路具有大規模遺忘的能力,與標準模型相比,新型神經網路的儲存容量高了一個量級。

賦予神經網路遺忘的能力,是受人類記憶特性啟發,研究人員提到,人們每天都會收到無窮盡的訊息,但是大部分會被遺忘,人們需要經常忘記日常瑣事的能力,才能在記憶中騰出空間,記住重要的事情。

大多數神經網路和人類記憶不同,神經網路通常不會區別記憶的重要性,進行無差別處理,研究人員表示,這樣的方法在小規模運作可行,但是當前人工智慧需要處理越來越多的資訊,因此帶來了無法負荷的計算成本。

因此臉書發展出了會遺忘的神經網路Expire-Span,該神經網路運作原理,是要預測與當前任務最相關的訊息,並且根據上下文,Expire-Span會對每條訊息分配一個到期日,就像是食物的保存期限一樣,在該日期之後,訊息便會從人工智慧系統中消失。越重要的訊息留存越久,越無關緊要的訊息則越快過期,如此人工系統被能擁有更多的儲存空間,能夠處理更大規模的資訊。

臉書舉例,當指定人工智慧尋找黃色門的任務(下圖),在像是Standard Transformers等模型,會不加選擇地記下每個時步的資訊,以便尋找黃色門。研究人員提到,這個過程通常存在過多的資訊,因此人工智慧代理可以選擇遺忘不必要的訊息,並且只記住任務描述的第一個影格就好。這種方法在字元層級的語言模型被廣泛使用,並且被用來改善具有較長背景資訊的任務,像是語言模型和增強學習等。

會遺忘的人工智慧其一大挑戰是離散的運算,也就是說,不是忘記就是記得,只有這兩種狀態,但要最佳化離散運算非常困難,研究人員解釋,這就是為什麼大部分系統都是不加選擇地,直接處理完整資訊,過去解決這個問題的方法,著重於壓縮上,期望把資料壓縮的更小,盡管這可以使模型擴展到更長的時間範圍,但是壓縮卻會模糊重要的資訊。

而Expire-Span的優點,便是能夠逐漸忘記不相關的訊息,並且以高效能的方式,不斷最佳化這類離散運算。神經網路會以時間序列的方式呈現單詞、圖像或是影片影格,Expire-Span會在每次處理新訊息的時候,對每種隱藏狀態計算一個過期時間,作為該訊息儲存在記憶體的保存期限。

研究人員表示,讓部分訊息逐漸衰退,是保持重要訊息不模糊的關鍵,而模型可根據需要,調整時間區間的大小。Expire-Span能夠處理成千上萬條資訊,但是留下少於一千位元的訊息,與其他方法相比,Expire-Span的效能與效率都更好。

Expire-Span的靈感來自人類保留記憶的方式,同樣的Expire-Span可以讓人工智慧保留對任務有用的資訊,進而忽略無用的訊息,研究人員提到,人類的記憶非常複雜,Expire-Span目前專注於處理過去經驗的記憶,但人類還有其他許多類型的記憶,他們正在研究該如何整合到神經網路中。


熱門新聞

Advertisement