Google開源基於TensorFlow的增強學習框架Dopamine

Google宣布開源基於機器學習函式庫TensorFlow的增強學習框架Dopamine，這個函式庫專門用於街機遊戲訓練環境，解決現存增強學習框架不夠靈活的問題，另外，Google還發布了一個網站，允許開發人員視覺化執行多個人工智慧代理人訓練。

增強學習透過獎勵或是懲罰，驅動代理人朝著特定目標前進，近幾年有了長足的進展，包括用於圍棋對弈的AlphaGo和AlphaGo Zero，以及DeepMind開發來遊玩Atari遊戲的DQN（Deep Q-Network），還有最近才剛和頂尖Dota 2人類玩家對戰過的Open AI Five。Google提到，這類技術的進展很重要，因為這些演算法不只能用在遊玩遊戲，還可使用於發展機器人技術。

這些開發工作需要快速迭代設計，因為通常系統發展並沒有明確的開發方向，而且需要破壞既定方法的結構，Google提到，現存大多數的增強學習框架不夠靈活也不夠穩定，使研究人員無法快速的迭代增強學習的方法，限制了探索更多研究方向的可能，而且這些框架還有相同的問題，那就是重現結果需要花費大量時間，這影響科學驗證的重現性。

為了解決這些問題，Google開發了基於Tensorflow的框架Dopamine，目的是為增強學習人員提供靈活、穩定和可重複的開發工具。這個函式庫是為街機學習環境設計，並且提供4個基於值的代理人，包括 DQN、C51、Rainbow簡化版以及隱分位數網路（Implicit Quantile Network，IQN）。IQN代理人是Google在7月，才於國際機器學習大會（ICML）中發表，而現在開發人員已經可以在Dopamine中使用。

為支援科學應用，Dopamine強調了過程與結果的可重複性，因此Google為Dopamine提供完整程式碼測試覆蓋，而這些測試能以另外的文件形式提供。而且對於新的研究人員來說，能夠根據既定的方法，快速對新想法進行基準測試是一件重要的事，為此，在Dopamine街機學習環境中的60個遊戲，Google為4個代理人提供完整的訓練資料，格式除了Python的Pickle檔案可用於Dopamine系統外，同時也有JSON的資料檔案可用在其他框架。

另外，Google也提供可以視覺化查看代理人執行遊戲訓練資料的網站，以及內含這些代理人已經訓練好的深度網路、原始統計日誌，以及可以在Tensorboard繪製的Tensorflow事件檔案。Google提到，Dopamine的易用性，可以支援漸進式和激進式的研究方法。詳細的資料以及程式碼可以在GitHub中取得。

熱門新聞