圖片來源: 

臺灣資料科學愛好者年會

全臺資料科學家周末將聚集在南港中研院,參加臺灣第一次的資料科學愛好者年會,來自學術圈、商業顧問、行動廣告、醫學生技、氣象、行動應用、金融、電子商務,甚至是生物保育、公益協會等四方八方的資料科學家將來分享第一手的資料分析經驗,例如能向全亞洲3億使用者推播廣告的威朋,將告訴你如何運用大資料搶先機,臺灣電子商務龍頭雅虎奇摩也要分享快速吸引數百萬名顧客下單的秘訣。這次還安排了一整天的資料分析實作課程,並搭配g0v黑客松開發活動,讓有興趣運用政府開放資料的IT人大展身手。

根據年會發起人也是中研院資訊科學研究所副研究員陳昇瑋觀察,他認為,台灣資料科學家"起薪"約一百萬至一百五十萬元左右;因為資料科學家相當強調經驗,所以有經驗者非常難找。

換句話說,在這次年會中所分享的一手經驗,都是價值百萬年薪的資料科學家知識。來看看他怎麼說。

 Q1  你在資料科學/大資料分析這一行待了多久?有哪些成果?

 A  我從 2005 年開始做線上遊戲網路及安全研究時接觸 R 語言,從此就踏上收集資料及從資料挖掘價值的不歸路 (笑),算算至今也快十年了。我覺得資料分析和其它許多專業一樣,真的需要長久時間的浸淫,需要長時間地在資料裡頭打滾,試著從不同角度來看同一份資料,才能夠得到所謂經驗及Insight,才能夠一看到新的資料,就能"看到"可能的分析方式及可能的分析結果和呈現方式。

因為我的研究多數由資料或觀察出發,且研究領域較為多元,因此與資料分析有關的研究成果不少,例如線上遊戲的使用者滿意度/忠誠度、外掛偵測、帳號盜用,釣魚網頁及僵屍電腦 (botnet) 的偵測,網路電話品質評估,社交網路個人隱私維護等等,有興趣者可到我的著作列表網頁一探究竟。

 Q2  你估計,臺灣有多少人從事資料科學家這一行?

 A 這問題的答案取決於我們對於資料科學家的定義。若是廣義的定義,類似資料分析師的角色,台灣至少也有兩三千位在各領域各行各業進行企業資料分析及報表/輔助決策的工作。但若我們指的是狹義的資料科學家,與傳統資料分析師最大的不同在於資料通常是異質性的且為巨量資料、解決的問題通常是未知、任務涵蓋資料的收集及整合以及最終的資料決策系統 (data product) 的打造,那我估計目前台灣也許只有百位資料科學家的規模,非常需要更多人的投入及轉型。

 Q3  從事資料分析最有趣和最痛苦的事為何?

 A 最有趣,或說最有成就感的時候是一看到資料就對分析結果有預感,果然分析出來跟自己腦袋想的一樣,是非常有成就感的經驗。最痛苦的當然是資料淨化 (data cleansing),尤其是資料中的問題是人為產生時,有時因為資料收集者的不小心,或因為軟體、硬體的問題,資料會含有許多不完美,這時就得花許多力氣把資料中的雜訊去除,有時往往得花上數天甚至數個星期才能達到可接受的水準。

 Q4  資料科學家需要具備什麼樣的特質?

 A 好奇心、耐心及對於特定領域的熱情。好奇心是因為資料科學家必須經常去問出沒有人問過的問題,他們不是要拿著既有的資料來回答既有的問題,而是要拿著新的資料來回答沒有人想過的問題,所以好奇心是第一重點。

耐心當然也重要,因為收集資料、處理資料,以及從資料中找到有意義的線索並沒有公式可尋,往往全世界就是你自己一個人對這份資料最熟悉,所以,卡關並沒有人可以幫忙。這時只能耐心地持續從不同角度來定義問題及回答問題,才能機會突破。我在就讀博士班的後兩年處理的都是同一份資料,不斷地分析它,找出新的意義及解讀方式,若是沒有耐心的人早就翻桌了 (笑)。
另外是對於特定領域的熱情,因為資料科學家並不是單純的數理統計學家或資訊科學家,他必須拿著技術來解決某個的領域的問題。而要能夠解決領域裡問題,通常要對該領域有足夠深入的瞭解,才有能力問出不一樣的問題,所以我說熱情也一定是必要的。

 Q5  依你的經驗,在國外和在臺灣,資料科學家的平均年新約多少?

 A 根據我的觀察,台灣的資料科學家"起薪"約一百萬至一百五十萬元左右;因為資料科學家相當強調經驗,所以有經驗者非常難找,我相信有資深及稱職的資料科學家年薪會隨著他的經驗值快速增長。

在世界各地的資料科學家年薪我不清楚,不過在美國,根據統計,起薪約美金八萬至十二萬左右,若是資深資料科學家或管理者年薪從十四萬至二十四萬都有;重點是這幾年的資料科學家年薪都還在快速成長中。

 Q6  為什麼想要發起這次年會?

 A 覺得台灣在資料分析及應用這方面,真的是走的比較後面;即使與亞洲其它國家,包含中國及韓國比較,我們都落後一大截。雖然台灣有許多企業擁有許多珍貴的資料,通常只是由資料倉儲部門拿來輔助高層做決策以及行銷活動而已,多數尚未把資料價值提升至企業層級。

我認為台灣一定要有人來提倡資料分析所可能帶來的無窮價值,可惜等了幾年一直沒看到有人做這件事。正好 Taiwan R User Group 的 Wush Wu 想做,就跳下來做,跳下來覺得台灣這方面的需求很強,只是之前沒有人來填補而已。

 Q7  R語言是什麼?為何要開一系列R課程?

 A  R 是繼承 S 及 S-PLUS 後的統計軟體套件,同時也有它自己的程式語言。它是少數為數據分析而生,而且語法接近主流 imperative programming language 的語言(相對於SPSS及SAS),有一個很強大的優點,就是 R 完全是開放原始碼。若你發現它哪裡不夠強,可以隨時改進。由於統計學界,尤其是醫學及生物統計界,R 幾乎是唯一的語言,因此它在各種數據處理方法的支持上十分完善,社群支援也強,不會有孤軍奮戰的感覺。R 的學習門檻高,但實際深入及長期使用後,會慢慢發現它在數據處理上的威力及彈性。

可惜的是,R 在台灣並不流行,我認為要推動資料為主的思考模式,工具當然很重要,沒有合用的工具,用較不適合的語言來寫,可能會把心力都花在寫程式上頭了。因此會希望趁資料科學年會與 Taiwan R User Group 一起來推廣 R 語言。

 Q8  今年演講內容有哪些特色?你會特別推薦哪些主題?

 A 每一場演講都是我精心挑選安排,當然所有主題都推薦 (笑)。因為資料科學本身是跨領域的,所以我認為完全看聽眾本身的興趣所在,對於開放資料,對於機器學習、機率及統計,對於生醫應用,對於金融,對於創業,對於社群網路,對於公益有興趣的聽眾,都可以找到他們喜歡、合適的主題。我個人推薦每一場都聽,一場都別漏掉,才能領略資料科學的潛力及多樣性。:-)

 

2014臺灣資料科學愛好者年會官網網址

http://twconf.data-sci.org/

 


Advertisement

更多 iThome相關內容