臉書在自家部落格,揭露使用深度學習函式庫PyTorch的情況,臉書已經進行了一年的模型搬遷工作,現在內外部總共有4,000個使用PyTorch的人工智慧模型,而生產環境則有1,700個PyTorch模型運作中,總共有超過93%的新模型訓練,包括辨識和分析臉書內容等任務的模型,都是運作在PyTorch之上。

臉書的模型每天都要執行高達數兆次的推理操作,來服務數十億的用戶,因此臉書需要不斷發展改進人工智慧框架,而這也是他們要將所有人工智慧系統,都搬遷到PyTorch的原因。臉書認為,採用PyTorch作為預測的人工智慧框架,能夠確保所有技術都能在臉書規模的工作負載量運作良好,並且還能以更快的速度和靈活性進行創新。

人工智慧從研究到生產的工作管線複雜且繁瑣,臉書提到,過去整個人工智慧產業的步驟、工具、程序破碎,幾乎不可能管理端到端工作流程,而臉書也面臨同樣的困境。為了解決這個問題,臉書從2016年開始尋找解決辦法,與人工智慧社群合作,研究並且發展出了PyTorch函式庫,在2018年的時候,PyTorch發布1.0版本。

縮小人工智慧模型研究到生產的差距

臉書中的PyTorch工程師,替每個開發階段都加入了一系列工具、函式庫、預訓練模型和資料集,使得開發人員能夠快速創建,並且大規模部署新的人工智慧應用。臉書希望透過使用單一平臺,來加速人工智慧研究到生產的流程,而搬遷所有臉書人工智慧模型使用PyTorch,可以讓工程師和開發人員,有更順暢的端到端開發體驗。

脫離舊框架轉換採用標準PyTorch,臉書減少了維護兩個基礎設施的工程負擔,臉書表示,搬遷是一個持續的歷程,規模跨整個臉書產品團隊,而團隊處理搬遷的方法沒有萬用解決方案,各團隊模型的功能相異,包括排名、電腦視覺、自然語言和翻譯等,大小和複雜性也都不同,而且在搬遷的同時,還要確保模型的效能,也不能對下游產品流量造成影響。

現在經過了一年的搬遷歷程,臉書每天平均有4,000個PyTorch模型在運作,臉書分享,在搬遷的過程,模型要歷經離線和線上測試、訓練、推理和發布,同時還必須要經過多項測試,來確保舊框架Caffe2和PyTorch之間的效能和正確性差異,工程師通常需要數周的時間,才能完成這個過程。

臉書工程師開發了一個內部工作流程和自定義工具,來幫助各團隊決定搬遷的最佳方式,甚至決定系統不搬遷直接更換。臉書舉例,像是延遲是許多團隊關注的重點,會想了解模型轉移到PyTorch,是否有效能降低的可能性,因此臉書工程團隊便創建了內部基準測試工具,來比較原始模型和PyTorch模型的效能,以簡化評估工作。

現在PyTorch已經成為支援臉書所有人工智慧負載的底層平臺,工程師可以在數分鐘內,就完成新模型的部署工作,而且模型也更容易建構、編寫、測試和除錯。臉書提到,PyTorch在各方面強化了人工智慧模型,包括能耗降低,而且能夠縮小機器學習研究和生產的差距,工程師還能以模型建構器的方法,方便地開發人工智慧應用。

臉書工程師不再使用現成的解決方案,而是開發自己的機器學習解決方案,針對特定任務量身定做模型,從研究到測試都能無縫實作。這項將模型搬遷到PyTorch的計畫,讓工程師不需要每次更新模型,都要重複經歷一次實作模型的繁瑣過程,更快地讓模型從研究環境進到生產環境。


熱門新聞

Advertisement