基於GPU運算平臺RAPIDS的查詢引擎BlazingSQL現對外開源

GPU加速SQL引擎BlazingSQL建立在Nvidia的GPU資料科學平臺RAPIDS之上，RAPIDS開源平臺提供了一套基於GPU的CUDA加速函式庫，可用於機器學習以及資料視覺化。現在BlazingSQL團隊已經與RAPIDS團隊整合，並將程式碼於GitHub上開源。

RAPIDS奠基於跨語言開發平臺Apache Arrow，以及用來載入、聚合和過濾資料的GPU資料影格（GPU DataFrame，GDF）函式庫cuDF。GPU資料影格是一種GPU記憶體資料格式，可為GPU應用程式提供互通性。BlazingSQL提供一套存取cuDF的SQL介面，可將企業資料湖泊的查詢資料，編碼成GPU資料影格，方便GPU記憶體使用。

BlazingSQL讓開發者以SQL語法，就能利用GPU查詢資料，而不需要操作複雜的cuDF函式呼叫。另外，BlazingSQL也能用來連結雲端或是網路檔案系統，直接對原始檔案進行查詢。BlazingSQL中的SQL最佳化工具，可以使RAPIDS堆疊運作更加快速。

BlazingSQL還整合Python平行運算函式庫Dask，可以為資料科學家提供快速的分析運算。官方提到，過去需要數千臺伺服器進行的大規模資料科學研究，現在只需要其中一小部分的基礎設施就能夠完成，過去需要耗時數小時甚至是數天的大型資料集工作負載或是查詢，由於BlazingSQL利用GPU，數秒鐘就能完成，而這賦予資料科學家快速迭代模型的能力。

除此之外，BlazingSQL讓開發者在開發測試環境與正式產品環境，可以使用相同的程式碼，官方表示，資料科學家通常需要先小規模的測試工作負載雛形，待驗證完成之後，會為分散式系統重新建置程式，而BlazingSQL可以使用同一行程式碼，在不同發布規模中運作。

有鑒於BlazingSQL與RAPIDS發展息息相關，因此為了未來的發展，雙方整合了開發團隊，官方表示，他們認為RAPIDS將成就下一代分析生態系，而SQL又是構成當前主要分析生態系的重要語法，BlazingSQL為RAPIDS下的SQL標準，因此與RAPIDS團隊整合，以利為cuDF做出更多貢獻。BlazingSQL建構在RAPIDS的cuDF以及GPU檔案I/O函式庫上，因此當這些項目受到更新時，也同時改善了BlazingSQL的效能。

熱門新聞