臺北醫學大學數據處數據長 許明暉 (攝影/洪政偉)

兩年前,臺北醫學大學出現了一個特別的組織。它與資訊處同等,都是一級單位,但職責不只限於學校,更涵蓋3家醫院,一肩扛起北醫體系所有數據管理的重任。

帶頭的指揮官,更是一位經驗豐富的IT老將,不僅是萬芳醫院早期發展新一代醫療IT應用的推手,也擔任過首任衛福部資訊處處長,現在更是國際醫療資訊標準協會HL7臺灣分會的理事長。

這個組織,就是臺北醫學大學數據處(簡稱北醫大數據處),而這位關鍵人物,就是臺北醫學大學數據處數據長許明暉。「當數據變得非常龐大、複雜時,就需要專責單位分工處理,」許明暉強調:「健康領域更是如此!」

甚至,臺灣醫界最常借鏡的美國國衛院(NIH)也早在2018年,設置數據長(Chief Data Officer)一職和資料策略辦公室(ODSS),來建立標準化生醫資料處理流程。隔年,北醫也跟上這股趨勢,在北醫大下設置數據處,來統籌三家附屬醫院和學校的資料管理工作,成為臺灣少數設置數據長的醫療體系。

「數據處有如一套共通的基礎設施,」許明暉說明,這樣的角色,整合了附屬醫院和北醫大所有的數據資料,統一提供資料處理服務和客製化資料集,個別單位就不必各自設置相同職責的組織,來處理複雜的數據。許明暉更進一步形容,北醫大數據處就像食材標準化的市場,將龐雜的數據標準化,有如「將原始的食材,製作為料理包,」讓使用者輕鬆烹煮、快速發揮效益。

健康數據有多複雜?不只3家附屬醫院百萬筆資料要打理

不過,健康數據究竟有多複雜,需要北醫體系設置專責單位來應對?這從北醫大數據處打理的資料類型,就能以小窺大。

首先,他們得治理北醫體系歷年來累積的大量自有資料,包括北醫附醫、萬芳醫院、雙和醫院等三家醫院,徵得病患同意後所取得的各種臨床資料。

這三家醫院擁有近380萬名病患的臨床資料,橫跨近半百個科別,小自病患就醫資訊、治療步驟,大至各種手術、檢驗檢查報告,甚至是癌症相關資訊與基因資料,都包含在內。

再來是許明暉所稱的「聯盟資料,」也就是用於跨國研究的健康資料。比如,北醫大去年加入國際觀察性健康數據聯盟(OHDSI),成為全球300多個據點中的一員,以「資料不出門、共享演算成果」的模式,來與國際成員交流、研究。

為做到這一點,數據處負責資料格式轉換工作,將內部資料轉換為OHDSI專用資料格式OMOP-CDM(Common Data Model),來展開跨國研究。

不過,北醫大數據處還需費心處理一類資料,即大量的外部開放資料。舉例來說,他們整理了美國NIH資助打造的重磅醫學重症資料庫MIMIC-III,提供橫跨11年、包含數十萬名患者的住院資料,來給校內師生和醫院同仁使用,一方面作為教學工具,一方面也作為深入研究的材料。

不只如此,北醫大數據處還有個經營健保資料庫的任務。衛福部健保署開放健保資料庫加值研究已有數年,全國研究者除了能在衛福部本部申請研究,也能在全臺10個分中心使用,北醫大就是其一。而北醫大數據處,就負責分中心的維運工作。

下設四大中心分工,還有AI專家進駐提供代客烹煮的數據分析服務

為進一步管理複雜的健康數據,數據處還下設四大中心,來分工負責不同的內外數據服務。

比如,健康暨臨床研究資料加值中心負責維運北醫大健保資料庫分中心,甚至進駐多位統計學專家和資料科學家,來提供「代客烹煮」的數據分析服務。

研究者若想以健保相關大數據開發AI模型,但本身AI技能不足,就能透過中心專家來打造模型。許明暉比喻:「這就像我們提供處理好的食材,但顧客不會料理,這時就能透過我們的AI專家,來協助烹調。」

再來,數據處還有個臨床數據中心,負責整合三家醫院的電子病歷資料,包括病患基本訊息、就醫資訊、檢驗報告、治療步驟等結構化資料,以及醫師記錄、病理報告、醫學影像報告等非結構化資料。臨床數據中心專門將這些資料,彙整為可分析的資料。

今年8月,數據處還新設一個北醫非常期待的單位「生物資訊中心」,來專攻精準醫療。這個中心將結合校內高通量生物技術和雲端分析平臺,運用自有的百萬筆臨床數據和需複雜運算才能處理的多體學(Omics)資料,來打造一站式生物數據分析服務。

這就是北醫大數據處生物資訊中心的目標。但他們還有一個任務:分擔中研院發起的臺灣精準醫療計畫(TPMI)。這個TPMI計畫,是要打造臺灣百萬人基因資料庫,而北醫大負責收集其中5萬人的基因資料,未來,生物資訊中心還將提供相關資料分析服務。

除了這三個中心,數據處下還有一個專精教育數據分析的校務研究中心,來負責教育數據處理。比如,該中心會追蹤學生在校和離校後的表現,進一步協助學校擬定多元入學政策。

遵循敏捷開發小而美精神,與使用者完善客製化資料集

這些資料林林總總,相當複雜,著手處理更煞費苦心。不過,許明暉也分享一套實戰法則,來說明團隊如何打造使用者可立即上手的乾淨資料集。

以臨床數據來說,醫院取得病人同意的臨床資料後,會由北醫大資訊處進行資料ETL,將資料放置到特定資料湖,再由數據處接手,展開資料處理工作。

這時,為建立符合使用者需求的資料集,數據處會先找出資料集的組成特徵,比如某疾病涵蓋的人口、病患性別比、壽命分類,甚至是超過特定就醫次數的病患數這類細緻特徵。

接著就進入建置階段。他們遵循敏捷開發Scrum精神,以每個專案最少3人、最多7人的規模建置資料集。這對擁有20多名人力的數據處來說恰到好處,既不占用過多人力,也不至於不足。

過程中,他們每1、2周就檢視進度,以這種小而美、邊執行邊修正的方式,來完善資料集。許明暉更強調:「我們不追求一次做到最完美,而是資料集整理到一定程度後,就先開放申請,讓團隊跟著使用者一起使用。」正是這股跟著使用者一起做的精神,讓數據處更能根據使用者回饋,進一步精進資料集。

臺灣這時投入FHIR基因資料標準化,是最好的切入點!─── 臺北醫學大學數據處數據長 許明暉 (攝影/洪政偉)

用NLP工具協助醫師快速抓出病理報告重點

不只建置資料集,數據處也會提供AI工具,來優化醫院的臨床作業流程。比如,他們利用一套開源自然語言處理(NLP)模型,打造成可以抓取關鍵文字訊息的AI工具,來加速處理結構鬆散(Free text)的文字型報告。

其中最成熟的應用,就是從病理切片報告中,擷取出乳癌三陰性關鍵訊息,並將訊息自動匯出到Excel表格,轉換為結構化資料,來快速提示報告重點、協助醫師決策。

「這種三陰性特徵很棘手,」許明暉解釋,三陰性乳癌預後不理想,因此在臨床上備受重視。這類病理報告通常一份數百字,但三陰性特徵不會清楚地集中出現在報告某一處,負責醫師得仔細閱讀所有報告,從不同段落找出這三種特徵才行。

因此,透過NLP工具快速從病理報告中整理出這些特徵,就能協助醫生更快制定治療策略,甚至是預測預後。

許明暉也希望,這個NLP幫手未來還能更聰明,比如能根據前後文判斷更精準的資訊,「看到醫師寫的數字,就能判斷是年齡、身高還是體重,」他說。

第一道防線把關資料合法性,還找來美NIH標竿人物給建議

打理如此龐雜的健康資料,許明暉透露,數據處還有四大原則來指導。首先是「資料合法性」,他舉例,要取得臨床數據,必須先以知情同意書,告知患者資料去識別化後的用途、取得同意。

再來是多元機制原則。比如,醫療資料可用於非營利的教學研究,也能用於藥廠研發新藥等盈利目的,北醫大數據處要做的是,讓患者能選擇資料用途,而非只單純詢問是否願意提供資料。

第三個原則是「退出機制」。許明暉解釋,病人既然願意授權資料使用,也應有中途退出的權力。對此,數據處會依意願來調整資料集,刪除中途退出的患者資料、保障退出權力。

最後是隱私安全,數據處不僅要將患者資料去識別化,還要確保資料不被有心人士竊取。因此,數據處與資訊處密切合作,由資訊處打理一切IT、資安工作,比如資料湖建置、防火牆設置、運算資源提供等,讓數據處專心負責資料處理工作。

但這些還不夠,為進一步與國際接軌,北醫大還請來一位參與過NIH百萬人基因計畫、美國大型電子病歷資料研究計畫的標竿級人物—美國范德堡大學生物統計系主任石瑜,來擔任顧問角色,指導北醫大的數據發展策略,來接軌國際醫療大數據的作法。

下一步攻癌症、基因資料FHIR化

不只藉助標竿大師經驗改善資料管理作法,數據處下一步還要往國際醫療資料交換標準FHIR邁進。這個標準由國際醫療資訊標準協會HL7制定,就像是一套通用的溝通語言,讓不同組織、不同廠牌儀器產出的資料,也能互相溝通。

「但這種溝通形式,較適合北美大型市場,對習慣走客製化資料交換規格、規模小的臺灣市場來說,FHIR會推得很辛苦,」許明暉坦言。因此,他們並非要從頭將所有資料轉換為FHIR格式,而是鎖定跨國研究這個目標,來推動FHIR應用,特別是癌症研究資料的FHIR化。

他解釋,選在這個時間點投入,是因為以FHIR架構為核心的癌症資料系統mCODE逐年普及,甚至,HL7協會還將mCODE作為旗下FHIR加速器的推廣項目之一,越來越受到各國醫界採用。

而且,北醫大數據處加入的OHDSI聯盟,今年更推出能將聯盟OMOP-CDM資料格式自動轉為FHIR格式的工具,讓各成員的數據團隊,能更快建立符合FHIR規格的癌症資料集。對北醫大而言,費了一番功夫將內部資料轉換成聯盟資料的苦功,現在可以很容易地轉換為FHIR格式資料。

除了癌症資料,「我們還瞄準基因資料!」許明暉看好這個正在萌芽發展的領域,「美國甚至發起4年計畫,要用FHIR架構推動基因資料標準化!」他直言,基因資料標準化對臺灣非常重要,因為「美國透過4年計畫已逐漸步入正軌,臺灣這時投入,是最好的切入點!」這句話,點出北醫大數據處這位指揮官更遠大的數據願景。

 CDO小檔案 

許明暉

臺北醫學大學數據處數據長

學歷:臺北醫學大學醫學科學研究所博士畢業

經歷:2005年擔任萬芳醫院醫療資訊副處長,三年後轉任臺北大學資訊長,2013年進入衛福部資訊處,擔任首任處長。2019年回到北醫體系,擔任北醫大數據處數據長,去年起更擔任HL7臺灣理事長

 機關檔案 

臺北醫學大學

● 成立時間:1960年

● 學校宗旨:以培育兼具人文關懷、創新能力,及國際觀的生醫人才,從事醫療保健、生命科學研究,及服務社會之目標為宗旨

● 網址:www.tmu.edu.tw

● 地址:臺北市信義區吳興街250號

● 員工數:約1,700人

 數據處檔案 

● 直屬主管:數據長許明暉

● 數據處名稱:臺北醫學大學數據處

● 數據處人數:23人

● 數據處分工:數據處下設四中心,包括臨床數據中心、健康資料加值暨統計中心、校務研究中心、生物資訊中心,以整合臨床資料庫、健保資料庫、校務資料庫與應用資料庫為目的,為全校師生與附屬醫院同仁提供即時優質的研究資訊服務

 數據處大事記 

● 2019年:率先全國成立校院數據處

● 2020年:3月提供臨床資料庫釋出服務;5月建立TMU Disease BI平臺,提供研究者隨時查詢院內診斷、手術、用藥等臨床資訊,同月串接本校附屬醫院癌症登記檔,並開放申請;7月串接衛福部死亡登記檔;12月以「OHDSI Taiwan Chapter」身分加入國際健康醫療數據聯盟OHDSI

● 2021年:8月組織重整,數據處新成立生物資訊中心,將「統計中心」及「健康暨臨床研究資料加值中心」整併為「健康資料加值暨統計中心」

 

熱門新聞

Advertisement