圖片來源: 

OpenAI

OpnAI近日開發了一套深度神經網路模型Sparse Transformer,透過改良過的注意力(attention)機制演算法,來萃取出更多序列中的模式,進而預測出序列中下一段文字、圖像或是語音,OpenAI指出,在AI研究領域現存的一項挑戰就是,訓練並預測長範圍、不易察覺相互關係的複雜資料,像是圖像、影片或是語音等資料,Sparse Transformer模型加入了自我注意力機制,再加上一些改良,試著解決這項挑戰。

過去,用於預測這些資料的模型,都會特定為一個領域所設計,或是模型也很難擴展到多個不同的序列上,相反地,OpenAI這次開發的深度神經網路模型,可以利用好幾百層神經網路,為數萬個資料元素建立序列,用於跨多個領域的應用中,OpenAI將用這套模型,來協助打造出更了解世界的AI系統。

在Transformer模型中,每個輸出元素都與輸入元素都息息相關,且在每個輸入和輸出資料之間的權重,都是動態改變的,權重會依據各種情況來計算,這個過程稱之為注意力(attention)機制,雖然這項機制被認為能夠使Transformer比固定連接模式的模型,更加有彈性,但是實行上來說,每一層網路都要生成N x N的注意力矩陣,因此,用於資料類型含有多個元素的資料時,會需要耗費龐大的記憶體計算資源,像是影像或是原始語音檔。

其中一項降低記憶體資源的方式,就是在反向傳播演算法(backpropagation)中,從checkpoints重新計算注意力矩陣,反向傳播演算法是在深度學習中,被廣泛應用於降低記憶體用量的技術,該技術用於Transformer注意力矩陣運算後,記憶體成本和層數就會無關,因此,相比以往,OpenAI現在能夠訓練更深的神經網路,在OpenAI的實驗中,Transformer最多能夠到128層,為了訓練這些越深的模型,OpenAI還針對Transformer模型的操作順序,以及scheme初始化做了一些調整,OpenAI也將詳細的研究內容發表成論文。

但是,即使只計算單一個注意力矩陣,也會因為龐大的輸入資料變得不切實際,因此,OpenAI改用稀疏(sparse)注意力模式,也就是只針對每個輸出位置,從輸入位置的子集合中計算權重,當子集合比整個輸入集相對小時,就算是非常大的序列,注意力計算結果也會變得較容易處理。

為了實現該方法,OpenAI首先將用於預測影像的Transformer模型中的學習注意力模式視覺化,找出許多可解釋和結構化的稀疏模式,當輸入部分聚焦於小的子集上,且出現高度的規則性時,該層就屬於易稀疏化,不過,雖然有許多層都顯現出稀疏的架構,有些層在整張圖上還是會清楚地出現動態的注意力,為了保留模型學習這類型模式的能力,OpenAI對注意力矩陣進行二維分解,因此,模型就可以透過稀疏注意力,來檢視圖像中的所有位置。


Advertisement

更多 iThome相關內容