圖片來源: 

黃彥棻攝

臺灣有超過750人在8月30及31日,頂著大太陽,前往中研院人文社會科學館參加首度舉辦的「臺灣資料科學愛好者年會」。年會總召中央研究院資訊科學研究所研究員陳昇瑋表示,舉辦這樣的大型會議,是希望能夠傳遞「從資料創造價值」的理念,讓企業與政府都可以進一步善用既有的資料,加上「跨界」思維(包括跨部門及跨領域),為各種資料創造各種無限新的可能性與更高的價值。

臺灣對資料科學分析需求熱,但專業人才難覓

因為臺灣在資料分析與應用方面,落後其他亞洲國家,包括中國、韓國在內,為了要提倡資料分析可能會帶來無窮價值,所以決定由臺灣資料科學愛好者協會籌備處和中國民國計算語言學學會,共同主辦第一屆「資料科學愛好者年會」,而800張門票在90分鐘內便完售的紀錄,甚至於,在年會舉辦之前,也一直有人詢問是否有門票願意讓售的情況,都讓人深刻意識到,社會上對於資料科學分析,的確有著一股很強烈的需求。

只不過,陳昇瑋說,聽眾需求很熱烈,但主辦單位卻面臨到兩大挑戰,第一點是,具備專業資料科學分析經驗的講師難尋,第二點則是,有意識到自己企業也與資料科學有關的贊助商難找。他進一步解釋,臺灣僅有少數企業真正願意給予「資料科學家」層級的頭銜,而這些專家幾乎都被網羅成年會的講師了;許多企業雖然都擁有許多資料,但並不認為企業和資料科學分析有任何關連性,贊助廠商難找某種程度也意味著,臺灣多數企業還沒有意識到,其實可以透過資料科學分析的方式,為企業原有的資料找到另外一種創新價值的方式。

聽眾報到率超過9成,主要聽眾以來自IT產業為大宗,高達62%,另外有將近2成(18%)聽眾來自學術界,其餘有5%聽眾來自財務金融產業,醫療生技和零售服務產業聽眾各有2%,政府機關與非政府組織聽眾各有1%,來自其他產業則有9%。陳昇瑋表示,為了避免資料分析時的偏頗,性別也是重要因素,此次參加年會的男女比例為76比24,適當的性別比例則略可平衡某些議題過於單向思維。

資料倉儲或資料採礦技能,不等於資料科學分析

臺灣有很多的企業或政府部門,都有資料倉儲(Data Warehouse)、資料採礦(Data Mining)等專門做資料分析的人員,但陳昇瑋認為,很多這樣的人員有些時候,都只是企業資料的保管者或提供者,頂多只是輔助企業高層做決策或協助行銷而已,還無法做到利用科學分析的方式,為這些既有的企業資料創造新的價值。

陳昇瑋指出,資料科學分析和傳統資料分析最大的差異點在於,資料科學分析往往擁有巨量且異質的大資料,要解決的是未知的問題,面臨資料蒐集與整合的難題,而且必須要能夠利用這些資料打造出新的產品或服務,並且被引用在商業文件中。不過,他強調,資料科學分析不只是指所使用的工具(R語言或Python)或平臺(Hadoop或NoSQL),也不一定要將所有資料視覺化,或者是,一定要進行資料統計分析或機器學習才算資料科學分析,就算資料很少量卻有價值,都可以做資料科學分析。

從此次年會的參與者也發現,臺灣有許多產業,包括電信業、網路服務業、遊戲產業以及行動裝置等產業,都有員工自願性或公司指派參與兩天的會議,目的就是希望能夠學習打造新的資料應用思維的頭腦,其中,也有一些產業開始意識到,因為對外很難找到適合的資料科學分析人才,已經開始計畫,希望能透過各種方式,訓練內部員工成為一個稱職的「資料科學家」。

只不過,陳昇瑋認為,企業必須意識到資料科學家其實是資料的CEO,在公司的位階,應該要能夠與技術長(CTO)平行,若只是一般的資料分析人員,就只是懂技術的人,無法從公司商業營運面向上,利用科學分析方式為既有資料創造新的利用價值,更無法發揮資料科學家的效果。

Code for Tomorrow「資料科學計畫(DSP)」課程研發規畫成員之一的御言堂總經理劉嘉凱便認為,目前臺灣對資料科學的熱度,很可能只是一場風起雲湧的幻覺,因為,相較於美國、中國等國家,在職缺與薪資水準上,都給予相當的重視,例如,中國一個數據挖掘的職缺,不僅要深入挖掘業務需求、搭建數據服務,還要建立公司數據分析體系,指導和培訓工程師,5~10年的工作經驗,薪資每個月為18,000~36,000元人民幣。

但臺灣在資料科學分析缺乏產業分工價值鏈、像樣的市場規模、資料驅動的企業文化、資料科學人才,以及無法提供對的職位去找到對的人,去執行對的任務並產出對的決策,因此,臺灣目前在科學資料分析的發展上,都還處於發展初期階段,「臺灣企業卻連資料科學家的職缺都不會開。」他說。

以某人力銀行刊出的「數據分析專案人員」工作職缺為例,工作內容要數據分析報告,作為高層決策參考,也要進行客戶行為及價值分析與建立資料探勘系統,但每個月薪資只有新臺幣26,000~36,000元。從這樣的案例也可以發現,臺灣企業多數仍將資料科學家視為軟體工程師的一類,給予的就是一般工程師的薪資待遇,工作內容其實是被動的利用工具去分析企業既有的資料,不具備主動跨界蒐集、整合並分析企業既有資料的權限。

雖然很多人對資料科學有不同的定義和表述方式,但劉嘉凱認為,資料科學除了要使用科學方法進行資料分析,並且解決真實世界的問題外,重點在於必須做到「跨界」才能夠稱之為資料科學分析。

在企業內成立資料科學分析小組,給他們機會創造不一樣資料價值

如何讓科學資料分析可以真正成為臺灣企業的顯學,陳昇瑋建議,企業至少成立一個五人小組,有一個人可以蒐集全公司跨部門的企業資料,並提供他們公司完整的資料,例如,公司如果有10種資料,就必須提供10種資料而不是指提供願意提供的2種完整資料,而這5個人,具備從資料蒐集、清理到分析的能力,願意給這群人機會和時間,一定可以從這些既有的資料中,創造出不一樣的價值。

陳昇瑋認為,好的資料科學家應該具備資料蒐集的各種程式語言Hacking的能力(例如R語言、Python等),也具備數學與統計能力,更重要的也必須具有相關領域的專業能力,才能看出資料的不同面向。劉嘉凱補充表示,資料科學家也必須具備視覺設計能力外,好的資料科學家若要做到跨界、跨領域的溝通,也必須具備溝通、專案管理的能力。但劉嘉凱也強調,如果只有程式語言和領域專業能力而缺乏理論基礎,進行資料分析時,容易把雜訊看成正常訊號,則必須特別留意。

由於資料科學家要有能力從取得資料(Acquire)到描述資料(Describe),進而發掘趨勢(Discover)並做出預測(Predict)及提出建議(Advise,模擬或最適化),才能夠讓資料科學成為一個真正的顯學,劉嘉凱認為,可以從激發資料價值以及資料科學教育兩個方向著手進行,也必須用業界實作的方式,讓更多人的可以了解什麼是資料科學的概念。

像是要在企業內部激發資料的價值,劉嘉凱強調,一定要把所有的利害關係人全部召集在一起溝通,唯有開放發展的態度,對資料科學發展才有正面影響。之前就有痞客邦透過舉辦PIXNET Hackaton(痞客邦黑客松)活動,在公司高階主管的支持下,將企業內部的資料開放出來,由更多人集思廣益,可以怎麼為這些資料創造更多的價值。像是,就有團隊分析上傳照片的EXIF資料,可以知道拍攝時間、上傳時間、檔案大小等,都有助於痞客邦未來可以針對拍照提供更好的服務。

在激發資料價值上,也針對政府公務人員舉辦一系列政府開竅(SmartGov)的活動,由公務人員分享他們如何針對開放資料,創造出不一樣的價值。劉嘉凱認為,由公務人員鼓勵公務人員,更容易達到「有為者亦若是」的境界。同樣針對醫療領域的專業人士,提供資料開放的概念與應該具備的技能解說,由第一線的醫護和消防救護人員,從既有的資料上找出可以再利用的機會。

在資料科學教育部分,Code for Tomorrow則推出資料科學計畫(Data Science Program,DSP),透過實作及工作坊的方式,規畫出「資料科學團訓班」,利用內政部房屋實價登錄的真實資料,設定包括工程師(Programmer)、規畫師(Planner)、分析師(Analyst)和設計師(Designer)等四種角色,實際針對實價登錄的資料找出各種資料新的價值。

劉嘉凱認為,這樣的團訓班可以成功,是一種團隊合作的成果,講師就是團訓班的團隊成員,學員則透過情境模擬方式、要求公開驗收,這樣的過程則讓許多原本不懂資料科學分析的人,有了初步的概念,甚至有很多學員上完課後,不僅知道怎麼開資料科學家的職缺,光是上課所應用到的工具,也可以馬上用於工作中。


Advertisement

更多 iThome相關內容