【臺灣本土醫院首次聯合學習試驗】臺北榮總靠超級電腦驗證可行性，要讓本土AI有國際盃實力

臺北榮總在國網中心進行聯合學習模擬試驗，發現聯合學習方法訓練的腦瘤辨識模型，雖只經過一次迭代，模型表現與真實基準（Ground truth）相比，其相似係數就達0.77。（攝影／王若樸）

影像辨識AI要有良好的成效，就需要夠多樣的訓練資料。「用臺北榮總資料訓練的AI模型，放到別家醫院是否還能用？」臺北榮總放射線部主任郭萬祐問道。他就是兩年前，催生臺北榮總腦瘤辨識AI模型DeepMets的關鍵人物，更是國內第一家由醫院發起聯合學習（Federated Learning）試驗的推手。

這套DeepMets，是臺北榮總利用20多年來累積的加馬刀腦部MR影像，與臺灣人工智慧實驗室（AI Labs）共同開發而成，30秒就能揪出腦部病灶、自動計算腫瘤體積，表現更媲美人類醫生。雖然如此，有個問題一直困擾著郭萬祐：模型是否也能精準判讀，不同於臺北榮總的異質MR影像？

為找出答案，他先利用轉診患者的腦部MR影像，來測試DeepMets。這些轉診影像來自不同醫院，拍攝的環境、機器廠牌、型號和掃描參數都與臺北榮總不同。結果發現，DeepMets雖有能力判讀，但表現並不理想。

於是，去年六月，他決定「走出臺北榮總牆外，」申請了健保資料AI應用服務試辦計畫，要利用健保署雲端集中式的異質醫療影像，來強化DeepMets的判讀力。

當時，他利用健保署提供的3,000多例腦瘤資料，對自家DeepMets進行多次再訓練（Retraining），來找出提高模型表現的參數。後來，他用改良過的DeepMets來判讀不同來源的MR影像，發現經過越多次異質資料再訓練的模型，對不同廠牌影像的判讀能力越好。

突破集中式機器學習瓶頸，以共享模型取代共享資料

這個發現促使郭萬祐思考，要打造高解讀力的醫療影像模型，除了集中式機器學習訓練外，是否有其他方法？因為，健保署擁有全國合約醫院上傳的醫療影像資料，科技部也有國家級巨量醫療影像資料庫，供醫療院所申請AI研究，但「這都是獨步全球的作法，」很難複製到其他重隱私的國家。

也因此，他看上近年國際上興起的聯合學習，想透過分散式機器學習訓練方法，在共享模型、而非共享資料的情形下，達到集中式訓練的效果。

利用國產超級電腦試驗聯合學習，迭代一次就達77％

於是，臺北榮總決定測試聯合學習在臺灣的可行性。郭萬祐找來擅長AI研究的瑞典查爾摩斯理工大學交換生Lukas Nyström，利用國網中心臺灣杉二號的雲端虛擬環境，建置了5個代表不同醫院的節點（Node），來模擬、測試聯合學習訓練方法。

「這場試驗，可分為三大部分，來比對聯合學習與集中式機器學習的差異。」Lukas Nyström解釋，首先，他建立一個腦部MR影像資料集，八成影像來自臺北榮總、其餘來自開源影像，總共3,686例。接著，他選定最常用作腦瘤辨識的3D ResNet U-NET模型，以集中式機器學習方法，先以資料集訓練一套腦瘤辨識模型。

這套模型，可辨識7種腦瘤，對不同來源的影像辨識度也不錯。而且，以評估模型表現的相似係數DICE值來說，該模型的DICE中位數為0.87，比人類醫生的0.74至0.85還高。

接下來，在第二部分，Lukas Nyström在臺灣杉二號雲端虛擬環境中，設置了5個節點來代表不同的虛擬醫院，並讓訓練資料以非常態分布（Non-IID）的形式，分布在各節點。然後，他在5個節點各自訓練一套模型，用來判讀不同來源的腦瘤影像，發現「這些模型的DICE值，只有0.59。」

最後，第三部分，他利用聯合學習方法，來改善這5個模型表現。首先，他收集這5個模型的權重，來進行聚合（Aggregation），也就是以聚合演算法（如FedAvg再加上Adaptive Momentum優化器）來整合這些權重，優化為最適合各模型的參數，再將這個參數回傳至5個節點。

按理來說，聯合學習會不斷重複上述過程，讓模型表現越來越好，直到收斂至理想值。不過，在這次試驗中，Lukas Nyström只將迭代過一次的模型拿來測試，就得到0.77的DICE。該模型，同樣也能辨識7種腦瘤，但「模型在辨識腫瘤邊界和擴散情形時，表現不理想。」

然而他也發現，經聯合學習訓練的模型，與集中式機器學習方法相比，較不會受到不同廠牌、不同掃描參數的影響。甚至，在一些領域表現特別好，比如多腫瘤辨識、複雜的腦瘤形狀和大小辨識，DICE值最高可達0.98。

多層隱私保護機制，讓聯合學習模型更安全

Lukas Nyström並未就此打住。他還針對這套聯合學習模型，採用不同資料保護方法，並進行模型測試。這是因為，聯合學習雖只分享權重而非原始資料，但攻擊者還是有可能從權重中，回推出特定的個人資料。為此，他在聯合學習模型中加入多層保護演算法，比如同態加密、SHA-256加密、差分隱私（Differential Privacy）等。

測試結果發現，在一般加入隱私保護情況下，模型表現並不會受到太大影響（DICE值約0.7）。然而，隱私防護使用得越多、超過臨界值，模型準確度就會大幅下降。

這個方法，證實了聯合學習不只能突破個資保護的限制，還能在額外的隱私防護機制下，訓練出可辨識異質性資料的模型。

驗證聯合學習可行性，未來要跨出臺灣、鏈結國際

「這次試驗，證明了聯合學習的可行性。」郭萬祐點出，聯合學習透過交換權重，不僅打破醫療數據難以分享的瓶頸，更可藉此得到集中式訓練的好處，強化AI模型對異質資料的解讀力。

他指出，未來，臺北榮總也許能藉聯合學習，以北部總院為首，與北區其他分院來進行特定模型訓練，或更進一步，應用於榮總北、中、南部的體系醫院，甚至與其他體系醫院聯手訓練，來訓練模型。

最後，郭萬祐也期望，臺北榮總擴大醫療聯合學習應用，走出臺灣來「打國際盃。」

相關報導 AI隱私難題新解方：聯合學習

熱門新聞