模擬大腦學習過程，DeepMind用強化學習神經網路找出人類內化過去經驗解決新任務的關鍵

DeepMind最近於自然神經科學期刊中，發表了利用元強化學習（Meta-reinforcement learning）了解多巴胺與學習過程的關係，該研究透過元強化學習網路模擬多巴胺的功能，發現該AI網路能夠從過去的經驗中，學習抽象的規則，應用到新任務中，有助於強化AI系統一次性學習的成效，並能加速AI學習新任務的速度，就像人類一樣，能夠活用過去的知識，套用到新的任務上。

最近AI系統的能力已經能夠駕馭許多遊戲，但是要達到這樣的成果，AI還是需要上千個小時的遊戲訓練，才能在遊戲中超越人類的表現，而相較之下，人類卻可以在幾分鐘內，學會玩從來沒玩過的遊戲。

人類可以用很少的知識做很多新的事的特性，這種學習能力被稱之為元學習（Meta-learning）或是學會學習（Learning to learn），人類的學習分為長期和短期，短期將會聚焦於特定的案例，而長期則是會學習抽象的技能和規則來完成別的任務，人類就是結合了兩種學習方式，因此在面對新的任務時，可以很快又有彈性地處理新任務。

DeepMind將人類學會學習的能力套用到AI系統中，並稱之為元強化學習，實驗成果顯示該方法能夠強化AI系統一次性學習的成效，並能加速AI學習新任務的速度。不過，人類大腦的學習機制在神經科學中仍然還無法解釋。

DeepMind的研究中，透過元強化學習框架來研究多巴胺（Dopamine）在大腦中幫助人類學習的作用，多巴胺通常被稱為大腦快樂的訊號，對應到AI系統中，類似用來評斷預測誤差的獎勵訊號，AI系統會依據獎勵機制反覆訓練。

而DeepMind認為，多巴胺不僅是利用獎勵機制來理解就過去完成任務的行為，更是能夠讓人類快速、有效地學習新任務的關鍵。

因此，DeepMind為了要測試這個想法，用模擬的方式重新建立神經科學領域的6個Meta-learning實驗，每個代理網路都有相同的技能和規則，並要求代理網路執行任務。

首先，研究團隊透過標準的深度強化學習（代表多巴胺的角色），訓練了一個遞歸神經網路（代表前額葉皮質），接著，將遞歸神經網路的表現，與之前在神經科學實驗中得到的實際數據進行比較，結果顯示，遞歸神經網路對於Meta-learning是好的代理網路，因為網路能夠將過去的行為和觀察內化，在從事多種不同任務時，應用這些過去的經驗。

另外，研究團隊也重建了探索Meta-learning概念的哈洛（Harlow）實驗，原本的實驗測試中，給予一群猴子選擇兩個不熟悉的物體，只有其中一個有提供食物的獎勵，總共會進行6次測試，每次都會隨機更換兩個物體左右的位置，讓猴子學習辨識哪一個物體會給予食物的獎勵。

經過訓練後，猴子會發展出一套策略來選擇有獎勵的物體，第一次先隨機選一個物體，接下來再根據有無獎勵的結果來選擇特定物體，而不是選擇左右邊來選擇，這項實驗說明了猴子會內化潛在的規則，學習抽象的規則結構，也就是學會學習的概念。

當研究團隊用虛擬電腦螢幕模擬類似的實驗，並隨機選擇圖像，實驗發現，元強化學習的代理網路能夠像哈洛實驗中的猴子一樣學習，即便是給予從未出現過的圖像，代理網路也能正確選出有獎勵的圖像。

該研究發現，大部分的學習行為在遞歸神經網路中進行，證實了研究團隊的論點，多巴胺在Meta-learning中扮演非常重要的角色，過去，多巴胺被認為能夠增強前額葉系統的突觸連結，強化完成特定任務的行為。

在AI系統中，這項實驗結果代表，當AI學會解決任務的正確方法時，類似多巴胺的獎勵訊號調整了人工突觸的權重，不過，在實驗中，神經網路的權重卻被凍結，不能在學習的過程中調整權重，但元強化學習的代理網路還是可以解決新任務，也就是說，類似多巴胺的獎勵訊號不只依賴調整權重，還能傳遞抽象技能和規則的重要訊息，來快速適應新任務。

神經科學家過去就已經觀察到，前額葉皮質的神經活動能夠讓人類快速適應新任務，但是還沒找到充分的原因解釋，而DeepMind的實驗發現前額葉皮質不是依賴調整神經突觸的權重來學習規則的架構，而是用了多巴胺來轉譯抽象的規則訊息。

熱門新聞