微軟更新其機器學習推理引擎ONNX Runtime,釋出1.8版本,這個版本更新加快了ONNX Runtime,在Android和iOS行動裝置上的推理和訓練速度,並且添加ONNX Runtim對網頁支援,此外,這個版本還推出用於加速PyTorch工作負載的官方套件。ONNX Runtime是一個跨平臺機器模型Runtime加速器,能夠使用硬體加速功能,在一系列裝置上,高效能地執行機器學習推理和訓練。

ONNX Runtime 1.8的新功能之一,便是提供ONNX Runtime的網頁支援。官方提到,網頁端推理有許多好處,包括減少伺服器和客戶端的通訊,能保護使用者的隱私,同時也能減少程式安裝,而且跨平臺的瀏覽器,可以快速地將應用帶上各平臺。ONNX Runtime Web能夠讓人工智慧開發人員,使用CPU和GPU建置網頁機器學習應用。

對CPU工作負載來說,WebAssembly能夠以接近原生的速度執行模型,ONNX Runtime Web使用Emscripten將原生ONNX Runtime CPU引擎編譯成為WebAssembly後端,這將能夠執行任何ONNX模型,並且支援幾乎所有原生ONNX Runtime的功能,包括多執行緒和量化等,甚至是行動裝置版本的ONNX Runtime。

在加速GPU任務的部分,ONNX Runtime Web使用了存取GPU的瀏覽器新標準WebGL,另外,微軟也在探索使用WebGPU等新技術,來進一步加快在GPU上的ONNX Runtime Web推理。

對於在行動裝置上越來越流行的人工智慧應用,ONNX Runtime也強化了行動裝置支援用例,官方提到,在行動裝置上執行人工智慧的優點,諸如離線處理,並且具有隱私安全和低延遲的特性。微軟在ONNX Runtime 1.6的時候,開始支援NNAPI和CoreML,以加快模型在手機上執行的速度,而這個新版本,微軟發布可整合iOS應用程式和ONNX Runtime Mobile的Pod C/C++函式庫。

現在Android和iOS程式包,都能以預建置套件的形式,分別從Maven Central和CocoaPods安裝,Android程式包會使用Android裝置上的NNAPI加速器,而iOS程式包則會使用CoreML,來加速模型執行。

ONNX Runtime使用者可透過下載torch-ort套件,來使用ONNX Runtime Training,該功能可加速大型Transformer模型的分散式訓練。ONNX Runtime Training包含GPU執行和GPU記憶體最佳化核心,可以提供達1.4倍的訓練吞吐量,使得大型模型也可在效能較低的GPU上運作。


熱門新聞

Advertisement