臉書4,000個AI模型全使用PyTorch框架

臉書在自家部落格，揭露使用深度學習函式庫PyTorch的情況，臉書已經進行了一年的模型搬遷工作，現在內外部總共有4,000個使用PyTorch的人工智慧模型，而生產環境則有1,700個PyTorch模型運作中，總共有超過93％的新模型訓練，包括辨識和分析臉書內容等任務的模型，都是運作在PyTorch之上。

臉書的模型每天都要執行高達數兆次的推理操作，來服務數十億的用戶，因此臉書需要不斷發展改進人工智慧框架，而這也是他們要將所有人工智慧系統，都搬遷到PyTorch的原因。臉書認為，採用PyTorch作為預測的人工智慧框架，能夠確保所有技術都能在臉書規模的工作負載量運作良好，並且還能以更快的速度和靈活性進行創新。

人工智慧從研究到生產的工作管線複雜且繁瑣，臉書提到，過去整個人工智慧產業的步驟、工具、程序破碎，幾乎不可能管理端到端工作流程，而臉書也面臨同樣的困境。為了解決這個問題，臉書從2016年開始尋找解決辦法，與人工智慧社群合作，研究並且發展出了PyTorch函式庫，在2018年的時候，PyTorch發布1.0版本。

縮小人工智慧模型研究到生產的差距

臉書中的PyTorch工程師，替每個開發階段都加入了一系列工具、函式庫、預訓練模型和資料集，使得開發人員能夠快速創建，並且大規模部署新的人工智慧應用。臉書希望透過使用單一平臺，來加速人工智慧研究到生產的流程，而搬遷所有臉書人工智慧模型使用PyTorch，可以讓工程師和開發人員，有更順暢的端到端開發體驗。

脫離舊框架轉換採用標準PyTorch，臉書減少了維護兩個基礎設施的工程負擔，臉書表示，搬遷是一個持續的歷程，規模跨整個臉書產品團隊，而團隊處理搬遷的方法沒有萬用解決方案，各團隊模型的功能相異，包括排名、電腦視覺、自然語言和翻譯等，大小和複雜性也都不同，而且在搬遷的同時，還要確保模型的效能，也不能對下游產品流量造成影響。

現在經過了一年的搬遷歷程，臉書每天平均有4,000個PyTorch模型在運作，臉書分享，在搬遷的過程，模型要歷經離線和線上測試、訓練、推理和發布，同時還必須要經過多項測試，來確保舊框架Caffe2和PyTorch之間的效能和正確性差異，工程師通常需要數周的時間，才能完成這個過程。

臉書工程師開發了一個內部工作流程和自定義工具，來幫助各團隊決定搬遷的最佳方式，甚至決定系統不搬遷直接更換。臉書舉例，像是延遲是許多團隊關注的重點，會想了解模型轉移到PyTorch，是否有效能降低的可能性，因此臉書工程團隊便創建了內部基準測試工具，來比較原始模型和PyTorch模型的效能，以簡化評估工作。

現在PyTorch已經成為支援臉書所有人工智慧負載的底層平臺，工程師可以在數分鐘內，就完成新模型的部署工作，而且模型也更容易建構、編寫、測試和除錯。臉書提到，PyTorch在各方面強化了人工智慧模型，包括能耗降低，而且能夠縮小機器學習研究和生產的差距，工程師還能以模型建構器的方法，方便地開發人工智慧應用。

臉書工程師不再使用現成的解決方案，而是開發自己的機器學習解決方案，針對特定任務量身定做模型，從研究到測試都能無縫實作。這項將模型搬遷到PyTorch的計畫，讓工程師不需要每次更新模型，都要重複經歷一次實作模型的繁瑣過程，更快地讓模型從研究環境進到生產環境。

縮小人工智慧模型研究到生產的差距

熱門新聞