AI Labs開源自家使用的聯合學習框架Harmonia,有別於只限於模擬用的Tensorflow Federated和PySyft,Harmonia可實際部署聯合學習模型。 (攝影/王若樸)

醫療機構中的病理資料,皆屬高度隱私數據,無法隨意存取。因此,「我們以聯合學習(Federated Learning,亦稱聯邦學習)方法來突破限制,」臺灣人工智慧實驗室(簡稱AI Labs)創辦人杜奕瑾說。

AI Labs成立三年,就在智慧醫療領域大放異彩,不只和臺北榮總打造全球第一套腦瘤臨床判讀AI系統,還與臺大醫院、北醫附醫等醫院和疾管署,開發出肝、心、肺醫療影像和瘧疾血液抹片的疾病判讀AI。另外,也跨足精準醫療,打造能進行30億個鹼基的基因定序分析平臺,去年更加入英國國家基因研究計畫Genetic England,要推動跨國基因AI分析合作。

然而,AI Labs既非握有醫療數據的醫院,在嚴格的個資保護法規下,就靠聯合學習來訓練模型。杜奕瑾指出,聯合學習可讓參與模型訓練的各方,在Local端以自己的資料訓練模型,再將各自的模型參數(而非原始資料)傳至中央系統,經聚合(Aggregate)後,再回放參與各方,各自利用新的參數來進行下一回合訓練。這個做法,醫院就不必共享高機敏性資料。

用聯合學習和健保醫療影像強化AI模型,打破資料藩籬

他舉例,今年因應武漢肺炎(COVID-19)而打造的胸腔X光判讀系統,就是其中一例。這個系統可分為兩階段,首先是判斷該X光片是否為肺炎,接著再判斷是否為武漢肺炎。

這套模型,是以AI Labs與臺大醫院的合作成果為基礎。「今年臺灣疫情爆發前,AI Labs與臺大醫院就先打造一套肺炎檢測AI,」當時,他們利用開源資料集中的4萬多張肺炎X光片和臺大醫院資料,採非監督式方法,以正常的肺部X光片來訓練模型,接著再讓模型「看」肺炎影像,在不須醫生標註病灶的情形下,來學習判斷肺炎。

後來,武漢肺炎在臺灣大爆發後,AI Labs與疾管署、健保署和臺大醫院組成試驗小組,利用自家醫療影像平臺TAIMedimg的聯合學習架構,先以臺大醫院的武漢肺炎影像訓練一套模型,再用健保署的武漢肺炎醫療影像,來強化模型表現,20秒就能判斷得到武漢肺炎的風險。這個模型在今年4月上線,是第一個開放給全球醫學專家使用的武漢肺炎AI模型,也部署到5家臺灣醫院使用。

從資料正義出發,自行打造開源聯合學習工具Harmonia

AI Labs大力擁抱聯合學習,還與杜奕瑾秉持的去中心化資訊分享理念有關。他指出,3年前AI Labs發起ptt.ai計畫,主張資料正義運動(Data Justice Movement),設計出一套不需要主機、去中心化的資訊分享演算法,還給用戶資料自主權。

隨著AI熱浪越來越強,漸漸地,他也開始思考,如何將這個想法,推廣到AI模型開發和訓練。於是半年前,AI Labs開始著手一項聯合學習專案Harmonia,要將自家使用的聯合學習框架開源出來,讓聯合學習「Made easy」,讓用戶輕鬆訓練、部署聯合學習模型。

有別於常見、只限於模擬用的聯合學習框架Tensorflow Federated和PySyft,Harmonia可實際用來部署。此外,Harmonia還使用工程師熟悉的環境和語言,比如熱門的開源工具Kubernetes、Git Large File Storage和GitOps等。

在執行流程上,為進行聯合學習訓練,首先會在Git Registry選定訓練計畫,再透過Webhook來通知參與節點。接著,節點便開始訓練各自的模型,完成後,模型參數會回傳到Registry,由一個聚合器(Aggregator)來收集各節點的模型參數。

收集完參數後,聚合器便開始整合、優化參數,再將優化過後的參數送至Registry,再回傳給各個節點,進行下一輪訓練,直到達到用戶定義的收斂標準。

就在今年6月,AI Labs也釋出了Harmonia第一版,內容包括了Harmonia-operator SDK和差分隱私(Differential privacy)函式庫。「差分隱私是聯合學習常見的資料保護手段,」杜奕瑾指出,雖然聯合學習只取模型權重而非原始資料,但有心人士還是有可能從權重參數中,回推出特定個資。

為防止這種攻擊,最常見的就是在回傳的權重中,加入雜訊(Noise),來混淆視聽。AI Labs也將這個方法,應用於自家的開源框架中。杜奕瑾希望,藉由開源Harmonia這一小步,可以推動聯合學習在臺灣的應用,跨出國界來加速國際聯合學習的發展。

 相關報導  AI隱私難題新解方:聯合學習


Advertisement

更多 iThome相關內容