臉書AI伺服器再升級！GPU效能更威猛，較前一代提升超過6成

圖片來源:

Facebook

臉書去年3月於Open Compute Project (OCP)高峰會上公布，與廣達電腦合作為深度學習應用而設計的第二代GPU伺服器Big Basin，今日（21日）則發布了Big Basin v2，根據臉書表示，Big Basin v2相比前一代Big Basin的GPU效能，提升了66％。

臉書表示，機器學習是臉書平臺多項服務的關鍵技術，包括自然語言翻譯、圖像分類、語音辨識、圖像和人臉辨識等，都需要大量的執行機器學習的模型，而運行機器學習模型的需求也日益增長。

在過去幾年，臉書在自家的資料中心，投資機器學習的相關硬體，來加速神經網路演算法的效率，進而提升平臺的服務和支撐AI研究，從2013年開始為AI研究部署HP SL2705 G8系統，接著在後續分別又推出Big Sur和Big Basin，最近則是將AI伺服器再升級，推出能夠處理更大、更複雜機器學習模型的Big Basin v2。

Big Basin v2與前一代的Big Basin系統都是建構在同一個模組上，模組化的設計能夠利用現有的OCP元件，來組裝Big Basin v2系統。臉書也將主控節點升級為Tioga Pass以提昇CPU效能，借助最新一代的Nvidia Tesla V100 GPU加速器提升效能，同時也將GPU及CPU主控節點之間的PCIe頻寬加倍、OCP網卡升級，來提供分散式訓練網路更多網路頻寬，如此一來，根據臉書的統計，相比上一代的系統，單一GPU的效能就能提高66%，且在大規模的分散式GPU訓練中，效能改善的結果接近線性。臉書認為，這樣的成果將有助於工程師打造更大且複雜的機器學習模型。（來源：Facebook）

Big Basin v2是支援臉書執行機器學習工作的最新一代硬體和軟體平臺，臉書目前主要是透過自家開發的AI平臺FBLearner，來執行機器學習模型，臉書整個FBLearner的平臺都是透過自家設計的軟硬體來運轉，其中訓練模型的過程即是利用Big Basin v2系統和伺服器平臺Tioga Pass來完成。

FBLearner包含Feature Store、Flow和Predictor。Feature Store從數據中擷取特徵，並匯入Flow來建立、訓練和測試機器學習模型，最後訓練完成的模型將會透過Predictor產生預測，舉例來說，預測哪一些貼文、照片，用戶會最關注。（來源：facebook）

未來，臉書表示，由於機器學習技術越來越多樣性，且需求越來越大，臉書將持續與合作夥伴合作，開發高效能的AI伺服器，針對訓練和預測進行優化，來實現效能更佳的系統。

熱門新聞