由Nvidia與麻州總醫院體系醫院發起的COVID-19聯合學習計畫,共有20家跨美、亞、歐的醫學中心參加,將透過各家醫院訓練Local端模型,再將模型權重回傳至中央主機,來進行聚合優化,之後再回傳給參與醫院,進行下一輪訓練,直到模型收斂至理想狀態 。(圖片來源/Nvidia)

聯合學習(Federated Learning)不只能用來訓練跨組織模型,「還適合打造跨國AI,特別是對資料隱私要求非常高的醫療領域,」三軍總醫院(以下簡稱三總)人工智慧暨物聯網發展中心執行長李家政說。

今年六個月,三總正式加入由Nvidia和美國麻州總醫院體系醫院Mass General Brigham(簡稱MGB)發起的武漢肺炎(COVID-19)聯合學習計畫,要與其他國家的醫療機構,共同訓練一套病情惡化預警模型。

身為這次計畫核心人物之一的李家政指出,該計畫並非單純判斷患者是否得到武漢肺炎,而是要透過各機構的武漢肺炎患者X光片,以及30多項電子病歷資料欄位,如生命徵象、白血球濃度等,來打造一套病情惡化預警系統。

因為,有別於一般肺炎,武漢肺炎患者可能在一天內突然惡化。對疫情大爆發的國家來說,一家醫院一天可能湧入數十位病患,這套預警系統,就能先替醫生篩選出高風險患者,讓醫生先替這些患者,準備插管或氧氣治療等資源。

聯手海內外20家醫療機構

參與這項聯合學習計畫的醫院,橫跨了美、歐、東亞和東南亞,共20家醫療機構。這些機構有幾項共同點,比如都是醫學中心、武漢肺炎案例數達一定門檻(陰陽性X光片各達100例),也具一定水準的軟硬體設備。

以三總來說,已具備Nvidia第一代超級電腦DGX-1和工作站,也是國內武漢肺炎患者收治最多的醫學中心。雖然案例數遠不及國外醫院,但藉聯合學習分散式的訓練,就好比集眾人之力、成眾人之事,資料稍少依然能發揮作用。

在整個聯合學習計畫進展上,目前Nvidia和MGB已做好前置作業,包括定義訓練資料類型、模型等細節,也開發了第一套樣板模型。此外,他們也在GitLab上開設技術小組群組,讓所有參與聯合學習的醫院技術負責人加入。

雖然目前尚未展開,但就規畫的訓練流程來說,各家醫院會先從AWS上的中央主機,下載MGB開發的樣版模型,在Local端以自家的資料來訓練模型。訓練好後,再將各自模型的權重,也就是數學方程式中的微調數值,上傳至AWS中央主機來聚合(Aggregate)。

之後,中央主機會透過聚合演算法來優化權重,並將優化過後的權重,回傳給各家醫院,讓醫院利用新的權重資料,來訓練自家模型,如此循環迭代。

在這個過程中,各家醫院不必等待所有醫院上傳權重。因為,Nvidia設定,只要上傳權重的醫院到達一定數量,中央主機就會開始聚合,並回傳優化後的權重。而在第一輪來不及上傳權重的醫院,一樣可在訓練後上傳,並接收第一輪優化過的權重,來進行第二輪訓練。

這樣的做法,打破了傳統需要大量數據且集中式訓練的局限。在過去,要訓練一套表現優良的AI模型,需大量、代表性高的訓練資料,集中在一個資料中心來訓練。 

然而,在醫療界,患者資料屬高度隱私資料,在如歐盟最嚴個資保護規範GDPR等的限制下,更不用說集結各家醫院的患者資料,來開發模型。聯合學習正好解決了這些瓶頸,透過共享權重,讓醫院在不必分享病患機密資料的前提下,也能精進模型表現,達到傳統集中式訓練的效果。

話鋒一轉,李家政指出,透過聯合學習訓練的模型,再放回各節點醫院端使用時,可能會發生準確度下降的情形。不過,三總已想好解決對策,也就是利用自家醫院的資料和遷移學習(Transfer Learning),來提高模型的表現。

另一方面,聯合學習也可能面對一般機器學習會遇到的資料隱私挑戰,比如模型反推攻擊或是梯度資料洩漏,來推導出特定個資。

為此,三總也有兩個原則來應對,首先是資料集最小化,也就是在不影響模型表現的情況下,只使用關鍵參數來訓練模型,減少資料暴露的程度。再來則是避免使用關鍵特徵,比如基因。

不過,李家政表示,這次的聯合學習計畫,只採用去識別化的患者X光片和生理數據等,並未採用較具特徵性的患者主索引(MPI)和基因相關資料,也因此,「被回推的風險很低。」

以國際經驗先練兵,備好基礎架構迎接新機會

雖然三總還是聯合學習的新手,但他指出,透過這次聯合學習計畫,能夠學習相關流程和知識,為未來國內外的聯合學習專案打下基礎。

李家政認為,國內雖有健保大數據,科技部也在這1、2年釋出醫療影像相關資料,供醫院做AI研究之用,但聯合學習仍有用武之地。「健保大數據不會顯示數值,比如不會顯示病患在某家醫院的血鉀濃度檢查值,此外,醫療影像數據也非全數釋出,資料不一定夠多元。」在他看來,醫院要在維護資料隱私的前提下,以足夠的資料來訓練模型,就可採用聯合學習。

比如,三總可聯合全臺14家軍醫院,來共同訓練特定疾病的AI模型,又或是以軍醫院體系,來與其他醫院體系如臺大醫院、長庚醫院等,來發展跨院的AI合作,甚至是跨國專案。

為打好AI開發基礎,三總也在近年,著手改善IT基礎架構,比如成立AIoT中心、採用統一的醫療資訊交換標準FHIR ,以及整合14家軍醫院的醫療資訊系統(HIS),以單獨一套HIS讓各分院使用、互通資料。未來,三總也將採用低延遲、高頻寬的5G和Wi-Fi 6,並將院內網路骨幹架構提升至100 Gbps頻寬,來因應AI資料傳輸和運算的需求。

 相關報導  AI隱私難題新解方:聯合學習

 

熱門新聞

Advertisement