Databricks宣布與RStudio整合,透過將RStudio整合進Databricks的統一分析平臺(Unified Analytics Platform),讓資料科學家可以更簡易的擴展R語言的運算規模到大資料等級,也能將熱門的R工具與框架整合進來,開發者現在就可以使用RMarkdown筆記本測試新功能。

Databricks表示,將RStudio整合到統一分析平臺,讓使用者可以在數秒內啟用,並以單一或是多節點的運算規模自動執行R語言工作。這項整合工作主要帶來三個優點,首先是Databricks主打RStudio整合進雲端平臺的特色,透過將R語言程式放到基於Apache Spark的運算資源,讓資料科學轉為大資料規模,並透過自動擴展功能,依資料科學家分析需求擴展或是縮減運算規模,達到控制成本的目的。

再來,資料科學團隊可以使用自己習慣的IDE,同時也能加入SparkR或sparklyr等慣用套件,在Spark上大規模的執行R語言工作。最後,R語言使用者也可以存取Databricks所提供的完整ETL功能以存取相關資料集,其功能包含最佳化資料格式、清理資料與加入資料集,讓使用者方便整理欲分析的資料集。

Databricks也提到,當多重使用者使用同一個叢集時,每一個使用者會單獨建立SparkR Context或是sparklyr的連線,但是這些使用者又都接受同一個Spark應用程式的服務,藉此提供用戶獨特的協作方法。Databricks未來會持續改進RStudio整合基礎架構,以及使用者在Databricks叢集存取RStudio的技術細節。


Advertisement

更多 iThome相關內容