Google更新其智慧資料服務Cloud Dataprep by Trifacta,最新版本加入新的人工智慧功能,強化資料疊加功能(Wrangling),並改善Dataprep核心轉換功能,讓清理資料和操作變得更加簡單。

Cloud Dataprep是個讓用戶可以利用圖形介面,進行瀏覽、清理和準備相關資料的服務,可處理結構化與非結構化資料,方便這些資料進行後續的分析、產生報表,或是執行機器學習工作負載。Cloud Dataprep採用無伺服器架構,用戶不需要預先安裝軟體,可處理來自BigQuery、Cloud Storage或是用戶自行上傳檔案的資料。

Google提到,他們一直在為Dataprep加入人工智慧功能,因為這是可以自動找出轉換資料的最佳方法,即便在複雜的分析使用案例上,也能讓用戶簡單地處理資料,降低用戶應用資料驅動的障礙。

這次的Dataprep版本更新,快速指定目標(Rapid Target)加入了模糊配對功能;當用戶在使用Dataprep準備資料的時候,可以使用探索模式來找出有用的資料,以及使用資料的方式,也能使用探索模式,強化現存資料倉儲,或是資料湖泊中用於生產的資料區域。

針對後者,用戶可以使用快速指定目標功能,將資料疊加方案(Wrangling Recipe),快速映射到BigQuery中既存的資料架構或是Cloud Storage中的檔案,用戶不需要自行將資料轉換規則,與現存的資料結構配對,Dataprep會使用人工智慧代勞。

而在新版本中,Google為其加入了模糊配對(Fuzzy-Matching)演算法,Dataprep不僅會使用欄位名稱進行嚴格配對,還能自動在目標資料結構,配對相似的欄位名稱與內容;Dataprep提供最佳的配對建議,用戶可以選擇接受、更改或是退回配對,Google表示,這個功能可以提高用戶載入資料倉儲中資料的速度,使用戶能專注分析資料工作上。

為了解決Dataprep解析資料可能發生的歧異,Dataprep現在讓用戶能夠設定本地配置,讓資料整理工作能夠更準確。當用戶在處理新資料集時,Dataprep會利用人工智慧理解資料類型以及資料結構,藉以辨識資料中的錯誤,但像是日期以及貨幣這類型的資料,難以使用用戶所在地區進行預測,因此Google增加了本地配置選項,讓用戶給定明確設定,幫助Dataprep精確推論資料類型,像是當用戶將本地設置為法國(下圖),則Dataprep便能清理日期格式,使其符合法語格式。

另外,Dataprep現在也讓用戶可以導入或是導出巨集。Dataprep中的巨集,指的是一系列可用來操作資料的步驟,在用戶進行資料準備工作時,有不少重複的資料模式問題,能夠使用同一系列的操作步驟解決,當用戶不想一直重複這些動作時,就能設定巨集來簡化操作。

而現在Dataprep提供的巨集導入與導出功能,用戶可將巨集在其他資料疊加方案中重複使用,也能供團隊其他成員重複利用,跨專案、部門,甚至在各開發階段,維持資料處理的一致性。


Advertisement

更多 iThome相關內容