GPU加速SQL引擎BlazingSQL建立在Nvidia的GPU資料科學平臺RAPIDS之上,RAPIDS開源平臺提供了一套基於GPU的CUDA加速函式庫,可用於機器學習以及資料視覺化。現在BlazingSQL團隊已經與RAPIDS團隊整合,並將程式碼於GitHub上開源

RAPIDS奠基於跨語言開發平臺Apache Arrow,以及用來載入、聚合和過濾資料的GPU資料影格(GPU DataFrame,GDF)函式庫cuDF。GPU資料影格是一種GPU記憶體資料格式,可為GPU應用程式提供互通性。BlazingSQL提供一套存取cuDF的SQL介面,可將企業資料湖泊的查詢資料,編碼成GPU資料影格,方便GPU記憶體使用。

BlazingSQL讓開發者以SQL語法,就能利用GPU查詢資料,而不需要操作複雜的cuDF函式呼叫。另外,BlazingSQL也能用來連結雲端或是網路檔案系統,直接對原始檔案進行查詢。BlazingSQL中的SQL最佳化工具,可以使RAPIDS堆疊運作更加快速。

BlazingSQL還整合Python平行運算函式庫Dask,可以為資料科學家提供快速的分析運算。官方提到,過去需要數千臺伺服器進行的大規模資料科學研究,現在只需要其中一小部分的基礎設施就能夠完成,過去需要耗時數小時甚至是數天的大型資料集工作負載或是查詢,由於BlazingSQL利用GPU,數秒鐘就能完成,而這賦予資料科學家快速迭代模型的能力。

除此之外,BlazingSQL讓開發者在開發測試環境與正式產品環境,可以使用相同的程式碼,官方表示,資料科學家通常需要先小規模的測試工作負載雛形,待驗證完成之後,會為分散式系統重新建置程式,而BlazingSQL可以使用同一行程式碼,在不同發布規模中運作。

有鑒於BlazingSQL與RAPIDS發展息息相關,因此為了未來的發展,雙方整合了開發團隊,官方表示,他們認為RAPIDS將成就下一代分析生態系,而SQL又是構成當前主要分析生態系的重要語法,BlazingSQL為RAPIDS下的SQL標準,因此與RAPIDS團隊整合,以利為cuDF做出更多貢獻。BlazingSQL建構在RAPIDS的cuDF以及GPU檔案I/O函式庫上,因此當這些項目受到更新時,也同時改善了BlazingSQL的效能。


Advertisement

更多 iThome相關內容