華聯大數據業務處副處長劉家宏

圖片來源: 

iThome

一間進駐新竹科學園區的生技公司,在今年成立了大數據業務處,很多人可能會好奇這個部門所扮演的角色,因為在臺灣,多數企業只將資料科學家視為軟體工程師之一,並沒有授予足夠的權限讓他們用科學分析的方式,為既有的企業資料創造新價值。對於生技公司而言,專為資料科學或大資料應用成立部門的例子更是鮮有耳聞。

從資料導向,主動開發產品和服務

劉家宏是華聯大數據業務處副處長,也是目前這個部門的最高主管,直屬總經理,他的團隊有5名員工,7位實習生,他表示:「現在,我們在支援晶片產品開發及檢測部門之餘,擁有更大的空間,能夠以資料導向,從大數據和資料科學的角度來開發產品和服務。」

原本的研發部門分為實驗(Wet)和電腦(Dry)兩個團隊,劉家宏是之前Dry團隊的主管,負責公司的晶片設計、晶片數據分析和臨床檢測軟體的開發。今年8月,研發部門改組,劃分出大數據、產品開發和檢測三個業務處。

為什麼公司需要成立大數據部門?劉家宏用染色體晶片這項產品的流程來解釋資料科學在之中扮演著關鍵的角色。從晶片的探針設計、到檢測結果的資料分析,他們必須先從30億個人類基因體的DNA鹼基對之中,找出可用來比對出疾病的鹼基對組合,共有多達上千萬筆探針資料,每個探針包含60個鹼基對,再從中篩選出較有效果的3萬個探針佈放到一塊晶片上。

從這塊小小的晶片可以一次性檢測出370種因染色體變異導致的發育遲緩、智能障礙等相關疾病。檢測流程是利用DNA互補概念,將受檢樣本與參照樣本的染色體標定不同的螢光訊號並進行雜交,掃描檢測晶片後,將探針螢光訊號轉為數值,利用統計方法偵測出染色體上異常的探針訊號,找到變異的染色體。劉家宏說,累積夠多的檢測樣本後,可從中發現具區域特異性的變異點作為決策依據,增加診斷信心。

他表示,對公司來說,大數據部門的目標是運用資料科學創造更多的價值,希望能連結每個人身上的基因資訊,來提供創新的產品與服務。這個大數據團隊利用生物資訊方法設計了一款臨床檢測用的染色體晶片和異常訊號的偵測軟體,支援產品業務處。同時也支援檢測業務處,對基因體實驗室測量出來的晶片結果進行分析。

建立資料分析模組,優化資料處理流程

在檢測晶片的資料分析上,他們每天都需要處理來自基因體實驗室的檢測晶片,之前以人工方式操作套裝軟體,來分析檢測結果,每個案件需要5個小時的時間。去年,劉家宏開始思考如何優化資料分析的流程,於是他讓團隊改用R程式語言,來建立各個資料分析的模組,像是資料正規化、差異基因偵測、品質控管及反應路徑偵測等模組,再將這些模組串接起來,取代原本某些用人工操作套裝軟體的程序。

經過半年的改善,分析每個案件的時間縮短為兩小時,但他們認為還不夠,又花了半年的時間做一個全面性的統整,劉家宏表示:「現在不到30分鐘就可以分析一個案件,且分析的內容更完整。這些省下來的時間,團隊可以做更多開創性的研發工作。」他也表示,他們會持續優化資料分析的方法與流程。

劉家宏很鼓勵他的團隊利用實際資料和比賽來持續練功,精進資料分析的技能。最近,他們參加了一項由美國國家癌症研究院、麻省理工學院、諾華、輝瑞、禮來等機構合辦的癌症基因重要性預測競賽,這項競賽有幾百個癌細胞的訓練樣本,每個樣本有六萬多個維度(特徵),這些特徵是使用基因晶片測量出來的,他們利用一些降維和機器學習的演算法進行預測,目前已有不錯的成果。

生醫產業對資料科學需求與日俱增,市場需求帶動人才成長

這位帶領華聯大數據部門的年輕主管,平常休閒興趣除了打球之外,也修瑜珈課程,讓他在工作上能夠更專注,挖掘更多資料背後隱藏的價值。他念博士班時,就開始在中央研究院資訊所的實驗室進行機器學習和生物資訊研究,接觸很多生物資料,累積了大約10年的學術研究和產業經驗。

過程中,他發現好的模型可以用在不同領域,也感受到資料科學的有用之處和樂趣,就自然而然地踏進這個領域。同時,他也察覺到,市場對各式各樣的資料分析需求愈來愈大,特別是生物醫學領域對資料科學的需求與日俱增。劉家宏認為,相較於國外,臺灣在這個領域一定是比較落後的,但他相信,未來臺灣資料科學的人才將會愈來愈多,因為人才產出伴隨著市場需求,有市場公司就願意把員工訓練成這類人才,求職者也會想辦法讓自己變成這類人才。

劉家宏分享了之前在美國波士頓的博德研究所做的資料科學應用,他和化學生物部門一起開發一個自動合成嶄新化合物的新方法,用電腦分析大量的實驗結果,模擬出化學反應的狀態,把數萬個化合物的結構拆解成數千萬個更小的子結構,再根據這些化合物在細胞株表現的活性和基因體表現的狀態,利用統計方法,自動將子結構重新合成出新的小分子化合物,如此一來,化學家就可以依據這個結構去實際合成新的化合物。劉家宏興奮地說:「當時拿到這些資料時的感受就好像在使用上億美金產出的資料一樣令人振奮!」

另一個應用案例是,他曾經開發過用圖論的方法,偵測出癌症檢測的嶄新生物標記,並和醫院合作,利用數百個臨床樣本來驗證預測是否正確,而這項結果很顯著,也成功發表在國際期刊上。

除了自己的應用經驗之外,劉家宏還分享了今年很熱門的一項基因體醫學應用案例,美國一間做基因體定序和基因資料分析的新創公司Foundation medicine,受五大藥廠委託,進行嶄新的癌症用藥臨床試驗。這項試驗利用病人身上的基因資訊,進行最佳的用藥分類,共有五個用藥,分別對應到五類不同的基因表現狀態。

劉家宏認為這是基因資料的一個很好的應用典範,可以達到個人化癌症醫療的目的,他說,某個程度上,這就是提供基因體的資訊服務,要做到這樣,需要具備很強的處理基因體資料能力。

資料科學家要喜歡被挑戰,實戰經驗最重要

從華聯的大數據部門,到劉家宏自己的資料應用經驗,再到生醫領域的應用,可以看到整個產業對資料科學家的需求並不少,那要如何才能成為像他這樣的一名資料科學家?劉家宏認為,需要有喜歡被挑戰的特質,在處理資料過程中,要能接受不確定性和想辦法降低不確定性,也需要耐心和細心。

另外,若以技術面來看,需要具備數理統計的基礎,以及機率、線性代數、資料結構、演算法、資料平行運算、機器學習等課程,以及將結果視覺化的能力,還要願意自學課堂上沒有教的東西,像是Python和R程式語言。

具備這些特質與技能後,再來就是實戰經驗,他建議大家實際去處理真實世界的資料。他說,剛開始經驗還不夠的時候,可以先試著解決已經被定義好的問題,處理已經整理好的資料,例如,參加像Kaggle這類型的比賽,跟著主辦單位的規則走,可以透過一定的評量機制,了解自己的實力。

Kaggle是一個聚集了全球超過9萬名資料分析專家的平臺,涵蓋領域包括天文、經濟、醫學、高科技、數學,甚至零售業等,這些資料分析專家,可選擇想參與的專案與合作夥伴,以比賽型式進行,為客戶解決問題。劉家宏認為,累積一定經驗之後,就有機會自己定義問題及蒐集資料,用資料解問題。

他也建議,最好先熟悉一個自己有興趣的專業領域,才有辦法跟需求的單位或是擁有資料的對象對話,讓自己的技術能夠有舞臺發揮,不要將自己侷限在同一個領域。

最後提到,在資料分析時容易犯下的迷思是,為了達到高準確度,不斷地調整參數,最後造成over-fitting的狀況。他說,一個看起來厲害的模型不見得適用在每個要解的問題,應該多深入瞭解問題的領域知識,或跟該領域專家多討論,他認為,有時候增加好的特徵(features)才是提升預測準確度的關鍵。

相關報導請參考:「大資料三部曲之3|資料科學在臺灣」「大資料三部曲之2|資料科學走入企業」「大資料三部曲之1|顛覆傳統的大資料處理新思維」


Advertisement

更多 iThome相關內容