Nvidia與Spark開源社群合作,在即將發布的資料運算引擎Apache Spark 3.0,支援端到端GPU加速功能,Nvidia提到,Spark 3.0建立在開源GPU機器學習平臺RAPIDS之上,可大幅提升資料提取(Extract)、轉換(Transform)和載入(Load)資料的效能。

Spark 3.0讓資料科學家和工程師,能夠將GPU廣泛地用在SQL資料庫,進行ETL資料處理工作負載,而且人工智慧模型訓練,也可以在同一個Spark叢集上處理,而不用分開在獨立的基礎設施以及程序中執行,Nvidia表示,這樣的改進可以提升整個資料科學工作管線效能,使用者不需要更改現有企業就地部署或雲端平臺上的Spark應用程式,就能從資料湖的ETL到模型訓練都獲得加速。

這項實作是以開源的RAPIDS加速器達成,這個加速器會攔截之前在CPU中執行的功能,並轉換到GPU上運算,切確的功能包括在不需要修改程式碼的情況下,大幅提高Spark SQL和DataFrame的執行效能,而且機器學習和深度學習可以和資料準備使用同一個基礎設施。還能跨Spark分散式叢集中的節點,提升資料傳輸效能,其函式庫由於利用UCF聯盟的開源UCX框架,可讓資料直接在GPU記憶體上移動,以大幅降低延遲。

由於Adobe和Nvidia建立戰略人工智慧合作夥伴關係,因此已經在Databricks上執行Spark 3.0,將GPU資料分析技術,用於開發Adobe Experience Cloud以及支援數位商業的功能上,而運用新技術後,運算效能提升了7倍。Nvidia提到,由於Spark 3.0獲GPU加持,可讓資料科學家使用更大的資料集來訓練模型,並且頻繁地重新訓練模型,進而提升模型的準確性。

而Spark 3.0之所以能夠良好地運用GPU,是因為Nvidia與Apache Spark背後支援的企業Databricks合作,使用RAPIDS套件來最佳化Spark,而Databricks的創辦人同時也是Apache Spark的創建者,其提供企業雲端服務,讓醫療保健、金融和零售等各行業,在其雲上執行資料處理運算。


Advertisement

更多 iThome相關內容