從雲端服務、大數據到人工智慧,各種資料科學相關應用的發展,已經蔚為風潮,然而,在資料分析平臺與工具的搭配上,大多數人會選擇使用開放原始碼的軟體來進行,不過,若要快速建置整體環境,並且使用經過妥善整合的應用軟體,仍然相當困難,所幸市面上已經出現了一些解決方案,像是我們先前介紹的Cloudera Data Science WorkBench,在今年上半問世,而系統軟體與雲端服務大廠IBM也加入戰局,在去年6月推出Data Science Experience(DSX),針對資料科學家、資料工程師、商業分析師、應用程式開發人員,提供彼此能夠協同合作的統一開發環境——就算資料科學團隊的成員各自習於使用不同程式語言,例如:Scala、Python、R或SQL,也能在這裡存取所需的資料,並且將分析模型傳遞給開發人員。

以提供的功能來看,DSX並非只是技術掛帥的工作平臺。基本上,資料科學團隊能夠運用整合好的開放原始碼軟體,以及IBM的加值解決方案,建立分析(Create)、管理分析結果的資產,並且進行協作分享(Collaborate),透過專案、版本控管等機制,便於多人合作;同時,還考慮到社群學習(Learn)的層面,內建線上資源與完整教學,協助成員掌握資料科學的相關基礎知識,IBM也在此開放多種資料集,並透過Jupyter Notebook的形式,公開記錄程式碼與分析結果的說明文件。

這套解決方案在發布之初,主要是架構在IBM Cloud雲端平臺之上,可提供近乎即時的高效能分析能力,提供250套輔助資料集、開放原始碼工具軟體,以及多人進行協同作業的工作區,讓資料科學家將發現到的分析結果分享給開發人員使用,以便加速智慧型應用程式的開發。

到了2017年上半,IBM也推出DSX Local與DSX Desktop的版本,因應企業內部基礎架構(可部署在IBM Cloud Private),以及個人桌面環境的使用需求,不再局限在雲端服務提供。

而在這三種形式之間,有何不同?台灣IBM公司商業分析部高級技術顧問蘇友信表示,DSX Cloud的部份,是提供所有資料分析所需工具,而且能夠立即使用的;DSX Local的架構則和DSX Cloud類似,不過,這是一套可安裝在企業內部使用的版本,適合有嚴格資料保護考量的用戶,而且,導入的企業需自行準備伺服器來建置,其餘維運作業則由IBM Cloud Private協助處理,以自動化的自我管理為中心。

至於DSX Dektop,則是提供整合好的 Jupyter Notebook、RStudio、 Python with Anaconda and R,讓資料科學家能一鍵安裝所有開發相關工具,但不包含資料模型管理、協同合作等相關元件,而這也是它與DSX Cloud、DSX Local之間的差異。

就核心技術而言,DSX主要是基於Apache Spark大數據處理框架,強化這套開放原始碼資料平臺的運算速度與靈活度,希望吸引規模多達2百萬人以上的R語言技術社群來運用;同時,IBM在發展DSX的過程中,也貢獻了一些程式碼,提交到SparkR、SparkSQL與Apache SparkML等開放原始碼軟體專案當中。

而在使用者操作介面上,DSX也整合了R語言開發者慣用的整合式開發工具RStudio,以及另一套開放原始碼的網站應用程式Jupyter Notebook——一般而言,開發者透過這套工具,與多人即時共享正在撰寫的程式碼、方程式、圖表與套用縮排樣式的文字內容,而在DSX當中,能用來記錄資料團隊成員的分析歷程,可包含程式碼片段與分析結果,作為說明文件。

除此之外,使用者也可運用DSX提供的流程編輯器(Flow Editor),以拖放物件的簡易操作,快速完成分析流程的設計,或是透過另一套Cognitive Assistant for Data Scientist(CADS)的精靈介面,引導快速建模。

而經由Jupyter Notebook、Flows或CADS產生的分析模型,可由系統的模型管理(Model Management)功能來掌控,並且匯入採用PMML格式的外部模型,同時,也能將資料模型部署成Restful API,更易於整合到應用系統當中。

基於多種開放原始碼軟體而成的DSX,本身也支援多種IBM自家發展的商用系統,像是:CADS提供的快速建模機制,能夠整合Watson Machine Learning的雲端服務,將模型執行在其中;在機器學習的處理流程制定上,DSX的用戶除了使用Spark 2.0,也能夠延伸整合IBM預測分析建模軟體SPSS Modeler;而對於決策制定最佳化的處理,可以透過 IBM CPLEX引擎來進行,亦即運用支援Python語言的DOcplex建模API(Decision Optimization CPLEX Modeling for Python),並且存取DOcplexcloud雲端服務(是基於ILOG CPLEX Optimizer系統而成),來處理大型的最佳化模型建立作業。

整體而言,DSX的目標是協助習於R語言的資料科學家,可在更短的時間內存取更多資料;相對地,也能促使更多人透過IBM Cloud的服務或是整合的系統軟體,能夠更易於產生資料分析結果,並且妥善運用。

產品資訊

IBM Data Science Experience
●原廠:IBM(02)8723-8888
●建議售價:雲端企業版每個月5個分析者授權為4,600美元起,包含15個executor的Spark Cluster環境
●產品形式:雲端企業版、桌面版、企業內部使用版
●相容程式語言:Scala、Python、R、SQL
●整合軟體與雲端服務:Spark、Jupyter Notebooks、RStudio、IBM Watson Machine Learning、Kubernetes
●內建程式庫:Brunel Visualization、PixieDust、PySpark、matplotlib、SparkML

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement