Nvidia與Databricks合作，讓Spark可用GPU加速模型訓練

Nvidia與Spark開源社群合作，在即將發布的資料運算引擎Apache Spark 3.0，支援端到端GPU加速功能，Nvidia提到，Spark 3.0建立在開源GPU機器學習平臺RAPIDS之上，可大幅提升資料提取（Extract）、轉換（Transform）和載入（Load）資料的效能。

Spark 3.0讓資料科學家和工程師，能夠將GPU廣泛地用在SQL資料庫，進行ETL資料處理工作負載，而且人工智慧模型訓練，也可以在同一個Spark叢集上處理，而不用分開在獨立的基礎設施以及程序中執行，Nvidia表示，這樣的改進可以提升整個資料科學工作管線效能，使用者不需要更改現有企業就地部署或雲端平臺上的Spark應用程式，就能從資料湖的ETL到模型訓練都獲得加速。

這項實作是以開源的RAPIDS加速器達成，這個加速器會攔截之前在CPU中執行的功能，並轉換到GPU上運算，切確的功能包括在不需要修改程式碼的情況下，大幅提高Spark SQL和DataFrame的執行效能，而且機器學習和深度學習可以和資料準備使用同一個基礎設施。還能跨Spark分散式叢集中的節點，提升資料傳輸效能，其函式庫由於利用UCF聯盟的開源UCX框架，可讓資料直接在GPU記憶體上移動，以大幅降低延遲。

由於Adobe和Nvidia建立戰略人工智慧合作夥伴關係，因此已經在Databricks上執行Spark 3.0，將GPU資料分析技術，用於開發Adobe Experience Cloud以及支援數位商業的功能上，而運用新技術後，運算效能提升了7倍。Nvidia提到，由於Spark 3.0獲GPU加持，可讓資料科學家使用更大的資料集來訓練模型，並且頻繁地重新訓練模型，進而提升模型的準確性。

而Spark 3.0之所以能夠良好地運用GPU，是因為Nvidia與Apache Spark背後支援的企業Databricks合作，使用RAPIDS套件來最佳化Spark，而Databricks的創辦人同時也是Apache Spark的創建者，其提供企業雲端服務，讓醫療保健、金融和零售等各行業，在其雲上執行資料處理運算。

熱門新聞