若以歐美資料科學家的職務要求來看,又要會處理資料,又要會建立分析模型,又要有描述解決方案的能力,這樣的人已不是個人才,而是超人了。」精誠資訊助理副總經理蔣居裕認為,與其找一個集全能於一身的資料科學家,不如建立一個「資料科學團隊」,將資料處理者、資料分析者與資料決策者分開招募,建立溝通管道並分工合作,才是務實的作法

從資料處理、分析到決策,以緊密溝通的團隊分進合擊
目前精誠資訊約有50人的巨量資料團隊,就是依照蔣居裕所描述的方式進行分工。蔣居裕表示,這個團隊的主要角色可分為「資料處理者」、「資料分析者」以及「資料決策者」。

「資料處理者」是直接接觸巨量資料的第一線戰鬥人員,這些人員需具備硬底子的程式技能、資料庫觀念以及資料探勘等資料處理相關技巧,以及如Hadoop、Splunk、NoSQL的相關知識,因此通常是由資工系畢業的軟體工程師擔任,然而蔣居裕也強調,對資料處理者而言,不一定要會什麼新潮的程式語言,只要在既有的Java、Python、Ruby等語言上有良好基礎,再廣泛學習資料處理的相關知識,就具備了作為資料處理者的基本能力。

待資料被處理成妥善形式以後,「資料分析者」就上場了,他們大多是熟悉於資料統計模型的數學、統計、物理系學生,能將特定形式的資料,包括文字、網頁記錄、語意辨識和聲音檔案等各種資料,依據待解決的問題,套入不同統計模型計算,並產生出有意義的報表,此外,資料分析者還必須具備「說故事」的能力,能將分析結果以視覺化方式呈現,告訴決策者這些資料的意義,讓決策者能更精準對這些資料做出判斷。

蔣居裕也表示,資料決策者所必備的技能就比較不容易界定,因為決策者通常不是一般的教育訓練可以培養出來的角色,必須要通過豐富的業界、商務經驗磨練,才可能慢慢培養出資料決策的能力。

然而,除了強化自己崗位上的技能,蔣居裕也認為,資料科學團隊的每個角色都應擁有彼此的基礎技能,比如,資料處理者也要知道一些分析方法,才能了解給分析者什麼形式的資料才容易進行分析,而分析師也要懂基本的程式設計,才能知道可能得到的資料種類,以及資料處理的速度與極限等。蔣居裕認為,讓每個角色了解彼此間的工作內容,有助於理解彼此作業的可能性與侷限性,而這也是良性溝通的重要基礎。

專業人才供不應求,跨界人才也過於稀缺
然而企業是否能招募到理想人才,得看學校教育能培育有競爭力的學生,很不幸的,蔣居裕認為以臺灣的大學畢業生來說,都過度埋首於本科專業上,較少跨領域發展的經驗,也較缺乏團隊合作解決問題的能力,因為在雲端時代,各種角色之間的溝通非常重要,如果只是專業能力強,卻無法跟其他角色互動,就不能算是雲端時代的搶手人才。

因此蔣居裕認為,在資料科學團隊,保持開放學習的心與強烈好奇心是最重要的。他認為巨量資料的分析方法,與人類的社會行為有著密切聯繫,若不了解人性與人的行為背後的動機,常會以錯誤的方式來建立錯誤的模型,並導致上層決策的全盤錯誤,讓整個團隊心血付之一炬。

除了跨界能力之外,雲端相關技術如Hadoop課程等,在學校與坊間的教育資源都非常稀少,蔣居裕表示,目前學校能教授Hadoop的老師不多,許多老師仍在學習階段。但不只是臺灣有人才供給問題,即使在美國,Hadoop相關人員在就業市場上,也一樣是供不應求。
此外,蔣居裕認為,一個雲服務,不管是IaaS、PaaS或SaaS,都一定會有使用者介面(User Interface),因此使用者經驗變得十分重要,而要建造或維護雲端系統,會碰到很多開源碼的子系統和非開源碼系統的整合,而這需要熟悉系統整合的專才,這些人才都是目前學院教育所缺乏的。

重視「非正式溝通」,快速因應市場瞬息萬變的要求
蔣居裕表示,由於雲端時代的要求瞬息萬變,在面對巨量資料的問題時,資料處理者與資料分析者之間的互動會非常頻繁,因此,就必須善用「非正式溝通」來對問題迅速做出反應,以精誠資訊為例,資料處理者與分析者就是同坐在一個大桌子辦公,並沒有辦公室常見的OA隔板擋在中間,當資料分析者覺得分析模型需要調整,而希望能修正輸入的資料範圍與類型時,就不必兩個人風塵僕僕的跑到會議室開會,因為他的對面就是資料處理者,要修改參數,直接朝對面講就行,節省時間與場地資源,此外,辦公室也到處都有白板,若有需要畫圖示意時,也可以很迅速的取用。

蔣居裕認為,「溝通」其實就是知識工作者的本質。20世紀中期以後,福特主義(Fordism)成為全球工業體系生產模式的標準,在工廠裡,人變成了標準化的小螺絲釘,生產動作的標準化使得溝通變成毫無必要,工人只需重複簡單的操作就能完成工作。然而在資訊時代,尤其是即將來臨的雲端時代,工程師的生產方式跟福特模式已經完全相反;生產流程不再被清楚切分,沒有所謂標準化的作業方式,以精誠的巨量資料團隊為例,資料處理者、分析者和決策者的連動就必須非常緊密,並且隨不同問題的轉變調整合作策略,在這種情形下,溝通就變成了專業技能之外,最重要的職場能力了。


資料科學團隊技能表

1. 處理者:Hadoop、Splunk、NoSQL
2. 分析者:建立統計模型、將統計結果「視覺化」之能力
3. 決策者:豐富的業界與市場經驗

熱門新聞

Advertisement