Google宣布開源基於機器學習函式庫TensorFlow的增強學習框架Dopamine,這個函式庫專門用於街機遊戲訓練環境,解決現存增強學習框架不夠靈活的問題,另外,Google還發布了一個網站,允許開發人員視覺化執行多個人工智慧代理人訓練。

增強學習透過獎勵或是懲罰,驅動代理人朝著特定目標前進,近幾年有了長足的進展,包括用於圍棋對弈的AlphaGo和AlphaGo Zero,以及DeepMind開發來遊玩Atari遊戲的DQN(Deep Q-Network),還有最近才剛和頂尖Dota 2人類玩家對戰過的Open AI Five。Google提到,這類技術的進展很重要,因為這些演算法不只能用在遊玩遊戲,還可使用於發展機器人技術。

這些開發工作需要快速迭代設計,因為通常系統發展並沒有明確的開發方向,而且需要破壞既定方法的結構,Google提到,現存大多數的增強學習框架不夠靈活也不夠穩定,使研究人員無法快速的迭代增強學習的方法,限制了探索更多研究方向的可能,而且這些框架還有相同的問題,那就是重現結果需要花費大量時間,這影響科學驗證的重現性。

為了解決這些問題,Google開發了基於Tensorflow的框架Dopamine,目的是為增強學習人員提供靈活、穩定和可重複的開發工具。這個函式庫是為街機學習環境設計,並且提供4個基於值的代理人,包括 DQN、C51、Rainbow簡化版以及隱分位數網路(Implicit Quantile Network,IQN)。IQN代理人是Google在7月,才於國際機器學習大會(ICML)中發表,而現在開發人員已經可以在Dopamine中使用。

為支援科學應用,Dopamine強調了過程與結果的可重複性,因此Google為Dopamine提供完整程式碼測試覆蓋,而這些測試能以另外的文件形式提供。而且對於新的研究人員來說,能夠根據既定的方法,快速對新想法進行基準測試是一件重要的事,為此,在Dopamine街機學習環境中的60個遊戲,Google為4個代理人提供完整的訓練資料,格式除了Python的Pickle檔案可用於Dopamine系統外,同時也有JSON的資料檔案可用在其他框架。

另外,Google也提供可以視覺化查看代理人執行遊戲訓練資料的網站,以及內含這些代理人已經訓練好的深度網路、原始統計日誌,以及可以在Tensorboard繪製的Tensorflow事件檔案。Google提到,Dopamine的易用性,可以支援漸進式和激進式的研究方法。詳細的資料以及程式碼可以在GitHub中取得。

熱門新聞

Advertisement