為何Google當初決定自行開發TPU晶片？Google TPU主要設計者親自揭露原因

圖片來源:

2021 台灣人工智慧年會

現今，Google許多服務，幾乎都跟AI有關，舉凡是搜尋、地圖、照片和翻譯等等，這些AI應用服務，在訓練學習和推論過程中，都使用到了Google的TPU。Google很早就在資料中心內大量部署TPU，用於加速AI模型訓練和推論部署使用，甚至不只自用，後來更當作雲端運算服務或提供第三方使用，還將它變成產品銷售。

在今年線上舉行的台灣人工智慧年會上，Google研究部門軟體工程師Cliff Young擔任第一天的主題演講，Cliff Young不只是Google Brain團隊核心成員，更是Google TPU晶片主要設計者，一手設計和打造TPU，部署到Google資料中心內，作為AI硬體加速器，用於各種AI模型訓練或推論。在加入Google前，他曾在D. E. Shaw Research和貝爾實驗室，負責設計和建造實驗室超級電腦。在整場演講中，他不只親自揭露Google決定自行開發TPU的過程，針對深度學習革命對於未來AI發展影響，也提出他的最新觀察。

Cliff Young表示，深度學習神經網路技術自2009年開始在語音辨識大放異彩以來，幾乎每年在不同領域應用上，我們都能看到因為深度學習而有了突破性的發展，從AI影像識別、Al下棋、到Al視網膜病變判讀、語文翻譯、機器人揀貨等等，「這是我們以前從未想過的事。」

正因為，深度學習的出現，人類在不同領域執行任務的方式產生重大變化，他也以美國知名科學哲學家Thomas Kuhn提出的科學革命的發展模式來說明，深度學習本身就是一種科學革命的典範轉移，不只是常態科學。

Thomas Kuhn在《科學革命的結構》一書中提出兩種科學發展模式，第一種是常態科學的模式，透過實驗和證明來理解新事實的方法，當出現舊科學無法認同的新科學產生時，就會產生新舊科學之間的衝突，衍生發展出另一種模式，也就是第二種的科學革命的模式，在此模式下，新科學模式將徹底顛覆舊科學的作法。「我認為深度學習革命就是這樣一種轉變，正在取代傳統電腦科學。」Cliff Young說道。

更進一步來說，他指出，深度學習是一種數據驅動的決策過程，不同於傳統的stored value 或啟發式（heuristic）決策方法，深度學習算法使用可觀測的數據，來提供人類建立更好地決策的方式，比如運用在使用者推薦，可以根據使用者輪廓或網路行為，來推薦適合的產品或給出最佳搜索結果。

但他也坦言，不像數學原理容易解釋，深度學習模型運作原理迄今仍難以解釋，也因此，科學家無法從這些運作原理中，找到提高效率的更好作法。若想真正理解其運作原理，依照過往工業革命的發展經驗，得等到合成神經動力學（Synthetic Neurodynamics）的出現後，動輒耗費數十年之久，所以，他說：「從事深度學習研究，比起問Why，How更重要。」

Cliff Young回顧機器學習革命過程，可以2012年的AlexNet神經網路架構作為分水嶺，由Alex Krizhesky等人提出的AlexNet運用GPU建立的深度學習模型，以85%準確度刷新世界記錄，在當年ImageNet圖像分類競賽中一舉奪冠。

這項競賽後來也引起Google的高度關注，認為深度學習技術大有可為，便開始投入研究。但他們投入後發現，深度學習模型在圖像識別和分類的成效表現，高度仰賴GPU的浮點運算能力，需要消耗大量運算資源供AI模型做學習訓練，因模型訓練運用GPU衍生出的運算成本十分昂貴。所以，Google才毅然決定自行開發深度學習專用的處理器晶片，也就是TPU(Tensor processing unit)。

在投入深度學習研究3年後，2015年時，Google開發出第一代TPU處理器，開始部署到自家的資料中心，用於深度學習的模型訓練。

Google在2016年Google I/O大會首次揭露TPU，與當時的CPU與GPU相比，Google的TPU不僅能提供高出30~100倍的每秒浮點運算性能，在整體運算效能表現有多達15到30倍的提升，甚至在效能/功耗比獲得有將近30~80倍的改善，Cliff Young表示，TPU很可能是當時世上第一個實現以高容量記憶體的矩陣架構設計完成的處理器。

當年，Google擊敗韓國棋王李世石的AI電腦圍棋程式AlphaGo，背後功臣就是使用TPU運算的伺服器機櫃，Google DeepMind團隊在AlphaGo硬體中搭載48個TPU用於AlphaGo的AI下棋推論，與人類進行棋力比賽。

過去6年來，Google TPU一共歷經4代發展演進，從初代TPU僅能應用於推論，到第二代TPU開始加入深度學習模型訓練處理能力，對於網路吞吐量需求增高，而隨著運算能力的提升，考慮到散熱問題，所以新一代TPU開始在散熱機制上結合液冷設計，也就是第3代TPU，也因此增加TPU密度，到了最新第4代TPU，則發展出兩種不同TPU v4版本，無液冷的TPU v4i和採用分散式液冷設計的TPU v4。

這幾年，深度學習硬體加速器越來越火紅，Cliff Young認為，在AI訓練和推論硬體發展上將出現轉變。他預測，未來推論硬體設計上將更具多樣性，來發展出不同推理解決方案，來對應不同場景的使用需求，從微瓦的超低功耗，到高效能運算HPC以及超級電腦應用。

另在AI訓練硬體方面，他表示，融合式硬體架構將成為發展主流，尤其現在不少新推出的AI訓練硬體，都有不少相似之處，像是在設計高密度運算晶片die時，會採用HBM（高頻寬記憶體）整合設計，還有建立高效能互連網路，用於傳輸訓練資料，如不同TPU核心互連就有使用ICI（Inter-Core Interconnect）來進行高速連接，其他還有如Nvidia的NVLink高速互連網路等。雖然這些技術，都來自不同團隊，但他們都有個共通之處，都在為共同問題想辦法找答案，他表示，透過這些技術融合，有機會可以找到更好的解決方案。

Google資料中心內目前部署了許多TPU Pod叢集，以上圖TPU Pod為例，分上下二層建立TPU Pod叢集，每層配置多臺機架式機櫃，每臺機櫃中安裝了數十個TPU，包括TPU v2（上排）與 TPU v3（下排），再透過網路線來與其他TPU高速互連。

另一方面，他也觀察到，近幾年，全球AI競賽進到白熱化階段，雖然加速深度學習在自然語言模型的突飛猛進，但也使得需要訓練的AI模型越來越龐大，像是為了完成使用1,750億個神經參數的GPT-3文字產生器模型的訓練，OpenAI使用1萬個GPU建立運算叢集，以 petaflops算力花了 3,640天來訓練該模型。

為了訓練出像GPT-3這樣的超大AI模型，Google也以多個TPU互連建立TPU Pod叢集，來打造超級電腦叢集，放在自己的資料中心內加速AI模型的訓練。Google TPU Pod更逐年擴大運算規模，從一開始256個TPU、增加到1,024個，到現在一個Pod擁有多達4,096個運算節點。以上圖在Google資料中心使用的TPU Pod為例，分上下二層建立TPU Pod叢集，每層配置多臺機架式機櫃，每臺機櫃中安裝了數十個TPU，包括TPU v2與 TPU v3，再透過網路線來與其他TPU高速互連。

但想要跟上深度學習發展腳步，Cliff Young認為，不能僅靠加大訓練用的運算機器，現有的軟硬體架構設計也得跟著轉變才行，也因此，他提出Materials-Application Codesign協同設計的概念，認為未來深度學習架構設計，需要結合包含從物理到應用所有層面的協同設計，他認為這是打破摩爾定律瓶頸，找到深度學習發展新出路的方法。

他進一步說明，在傳統協同設計中，硬體和軟體之間僅靠一層單薄的ISA指令集架構作為聯繫溝通，但在以DSA（Domain-specific Architecture）專用領域架構為主的協同設計中，則是由許多不同軟體層，架構層，以及不同介面組合而成。其中軟體層方面，包括函式庫、編譯器、應用程式、模型、演算法、Numerics等，硬體架構方面則有物理設計、半導體材料、架構及微架構等。這些軟硬體協同設計，未來可以運用到深度學習架構設計優化上，例如在新記憶體技術中，有效降低模型訓練過程對於位元（bits）覆寫使用，以及考慮加入讀取較快的資料庫或檔案系統設計等。

熱門新聞