大數據管理服務公司Cloudera近日在臺發表企業用的數據科學平臺(Cloudera Data Science Workbench)測試版,可提供資料科學家以視覺化的網頁應用程式介面,來開發分析模型,支援R語言、Python,和Scala。

圖片來源: 

Cloudera

大數據管理服務公司Cloudera近日在臺發表企業級數據科學平臺(Cloudera Data Science Workbench)測試版,這是一個可安裝於企業內部的網頁版分析工具,前身是Cloudera去年併購的雲端Sense分析服務,可供資料科學家使用常見的R語言、Python和Scala撰寫程式,透過容易上手的GUI介面,搭配加密存取機制,來操作Cloudera大數據平臺進行各項分析任務,包括Spark和Hadoop的任務。數據科學平臺也是Cloudera企業級大數據平臺產品的新工具。

掌管Cloudera的數據科學平臺的主席Tristan Zajonc和產品管理經理Matt Brandwein日前在官網進一步說明推出這套圖像化分析工具的目的。他們指出,目前已有不少企業仰賴資料科學家的分析結果,來調整行銷的策略,但基於安全考量,資料科學家只能存取部分資料集來建立演算法模型,再加上企業想用大數據分析的問題往往多元且複雜,資料科學家得不斷調整分析模型與方法,才能找出有效的模式。

也因此,資料科學家不僅要專精於統計分析、機器學習技術和軟體工程等,還需要具備特定分析個案的專業領域知識才能應付。

可是,資料科學家通常不是軟體工程師,他們專精於數學方法和商業領域的知識,但通常不擅長在Hadoop和Spark環境開發Java或Scala的演算法。一般來說,資料科學家多半依賴容易上手的Python和R,來整理數據、分析和建立分析預測模型。

Cloudera表示,資料科學家們往往就是企業內常使用影子IT服務的團隊之一,他們偏好使用自己熟悉的工具,用部分的數據集資料分析數據,這樣的做法可能導致分析結果不夠準確,也增加了安全的風險。再加上,一個專案團隊中的資料科學家,若用不同的程式語言撰寫演算法,整合難度也會很高。

Cloudera數據科學平臺就是想解決這類的問題,提供一個網頁形式的分析工作管理工具。底層利用了Container的技術來執行分析任務,包括R、Python和Scala的程式,一來藉由統一的平臺讓資料科學家團隊更容易合作,還提供獨立管理每個專案和重現性的功能。另外,Cloudera數據科學平臺也提供使用者權限管控。

不過,只有工具和平臺還不夠,Cloudera大數據顧問Steven Totman建議,企業要順利導入大數據應用要注意三件事。第一,企業要建立以數據為導向的企業文化,許多企業擁有龐大的數據,卻沒有分析的技術,導致企業不重視數據能解決問題的能力。再則,企業要成立適當的團隊運用分析技術,且團隊中必須結合數據工程師、分析架構設計工程師、統計分析師等人才。

最後,Steven Totman則建議企業開發大數據應用,最好也採用敏捷式開發流程,不只以周為單位,來規畫開發衝刺,還要以天數來計算部署時程。


Advertisement

更多 iThome相關內容