Dataflow監控工具:開發者可以點選Development Console的Big data選單,以監控每個階段,及其所耗費的時間。(圖片提供/Google)

在2014年Google I/O大會上,Google技術架構資深副總裁Urs Holzle發表,大資料分析雲端平臺Dataflow,提供開發者完整的資料處理管道(Pipelines),從資料擷取、轉換到分析。早在去年11月,Amazon也發表了自家的資料處理服務 Kinesis,著重資料的即時處理。

Urs Holzle表示,Google與Twitter在世界盃足球賽的期間合作,透過Dataflow讀取數百萬則Twitter貼文,做球迷情感分析,了解各國球迷在球隊賽事高潮迭起的環境下,大部分的人在想什麼。

Urs Holzle說,Dataflow是MapReduce的繼承者,由數個Google企業內部本來就在使用的技術為基礎,包括資料平行處理管道技術Flume和容錯串流技術MillWheel。而第一版的Dataflow SDK採用Java來開發,當然,在Dataflow 開發者控制臺也會有儀表板顯示整個資料管道的狀態。

Google先前將發展重點放在MapReduce以及BigQuery上,而Urs Holzle 表示BigQuery也能與Dataflow相輔相成,開發者可以把Dataflow的資料餵給BigQuery。例如欲輸入BigQuery的資料是具規則的,開發者可以直接操作,但是當資料需要先經過處理,便可以透過Dataflow組合BigQuery裡及其他來源的資料,經過處理後再次存入BigQuery中,這個循環可以重複進行。

Dataflow的截取資料階段,開發者可以選擇串流即時資料到Dataflow上,也可以批次上傳。在串流模式下,支援任何檔案格式的資料,而在批次輸入模式,可以用逗點隔開的文字檔案和BigQuery的表格,抑或是類似的格式。

Dataflow補起了Google在雲端服務中的一塊拼圖,不過,目前Dataflow正在內部測試當中,Google還沒有公布上市後的明確價格。

Dataflow分析Twitter世足球迷心情實例
Google擷取Twitter各國球迷的貼文,分析貼文內容,畫出球隊進球數與球迷心情變化圖。(圖片提供/Google)

相關報導請參考「Google I/O 2014開發大會快報」


Advertisement

更多 iThome相關內容