圖片來源: 

Facebook

臉書去年3月於Open Compute Project (OCP)高峰會上公布,與廣達電腦合作為深度學習應用而設計的第二代GPU伺服器Big Basin,今日(21日)則發布了Big Basin v2,根據臉書表示,Big Basin v2相比前一代Big Basin的GPU效能,提升了66%。

臉書表示,機器學習是臉書平臺多項服務的關鍵技術,包括自然語言翻譯、圖像分類、語音辨識、圖像和人臉辨識等,都需要大量的執行機器學習的模型,而運行機器學習模型的需求也日益增長。

在過去幾年,臉書在自家的資料中心,投資機器學習的相關硬體,來加速神經網路演算法的效率,進而提升平臺的服務和支撐AI研究,從2013年開始為AI研究部署HP SL2705 G8系統,接著在後續分別又推出Big Sur和Big Basin,最近則是將AI伺服器再升級,推出能夠處理更大、更複雜機器學習模型的Big Basin v2。

Big Basin v2與前一代的Big Basin系統都是建構在同一個模組上,模組化的設計能夠利用現有的OCP元件,來組裝Big Basin v2系統。臉書也將主控節點升級為Tioga Pass以提昇CPU效能,借助最新一代的Nvidia Tesla V100 GPU加速器提升效能,同時也將GPU及CPU主控節點之間的PCIe頻寬加倍、OCP網卡升級,來提供分散式訓練網路更多網路頻寬,如此一來,根據臉書的統計,相比上一代的系統,單一GPU的效能就能提高66%,且在大規模的分散式GPU訓練中,效能改善的結果接近線性。臉書認為,這樣的成果將有助於工程師打造更大且複雜的機器學習模型。(來源:Facebook)

Big Basin v2是支援臉書執行機器學習工作的最新一代硬體和軟體平臺,臉書目前主要是透過自家開發的AI平臺FBLearner,來執行機器學習模型,臉書整個FBLearner的平臺都是透過自家設計的軟硬體來運轉,其中訓練模型的過程即是利用Big Basin v2系統和伺服器平臺Tioga Pass來完成。

FBLearner包含Feature Store、Flow和Predictor。Feature Store從數據中擷取特徵,並匯入Flow來建立、訓練和測試機器學習模型,最後訓練完成的模型將會透過Predictor產生預測,舉例來說,預測哪一些貼文、照片,用戶會最關注。(來源:facebook)

未來,臉書表示,由於機器學習技術越來越多樣性,且需求越來越大,臉書將持續與合作夥伴合作,開發高效能的AI伺服器,針對訓練和預測進行優化,來實現效能更佳的系統。


Advertisement

更多 iThome相關內容