孫民引用 Nvidia 與倫敦國王學院合作計畫中的醫學影像分析示意圖,說明AI如何確保病患的資料隱私。

面對武漢肺炎(COVID-19)疫情延燒,各國紛紛祭出封城令和居家隔離政策。但是,對於須看護照料或獨自居住的長者,要如何掌握他們的健康狀態、又不侵犯隱私呢?Appier首席人工智慧科學家孫民在一場線上會議上分享,聯合學習(Federated Learning)將是AI遠距照護的關鍵。

這幾個月來,出現越來越多AI抗疫應用,比如利用電子病歷建置AI風險預測模型,從醫療服務利用率、住院率等篩選出高風險族群,搶先一步來預防;又或是,透過確診患者的胸腔X光片或電腦斷層掃描(CT)影像,來訓練一套肺炎輔助判讀AI模型,加速醫師找出病灶。但要將各地、各分院或甚至是大量手機上的醫療資料集中,光是回傳過程就得層層加密才能避免遭攔截而外流,或得符合各國當地隱私法規要求而窒礙難行。聯合學習成了不少AI應用兼顧隱私和大規模集中訓練的關鍵。

師承Google雲端前首席科學家李飛飛的孫民,就以他老師近期成果來舉例,如何不回傳個別資料兼顧隱私,又來持續優化AI模型的關鍵。

李飛飛最近分享了一項AIoT遠距照護應用,就是要用聯合學習來突破這個挑戰。這套AIoT系統,整合了攝影鏡頭、深度感測器、熱感測器,日後還要整合穿戴式感測器等,第一階段,蒐集了一批前三種裝置的數據後,由醫療專家和AI團隊來分析、標註,先訓練出初步AI模型,可用來辨識長者的睡眠、飲食、呼吸等行為模式。第二步,接著將AI模型部署到家中裝置,直接在裝置端進行行為辨識和預警。但挑戰是,大量部署時在感測器所收集的資料屬於個資隱私,無法回傳,若繼續採用監督式學習,就無法進一步優化模型。於是,李飛飛團隊計畫用非監督的聯合學習,讓模型在個別裝置上,直接利用新數據來更新、訓練。

三大關鍵來兼顧隱私和持續回傳資料優化AI模型

孫民解釋,聯合學習具備了三個特色,也就是遷移學習(Transfer Learning)、分散式訓練(Distributed Training),還有把關資料安全的差分隱私(Differential Privacy)。

他以醫療影像AI模型為例,假設有多個分院想建置腦腫瘤電腦斷層掃描影像判讀的AI,團隊可透過遷移學習,收集各分院的醫療影像,訓練出母模型後,再部署到各分院,利用各分院資料來訓練各自的子模型。

接著,為減少資料傳輸的時間和成本,團隊可在各分院,利用分散式訓練,以自行產生的數據來訓練子模型,不需將所有資料回傳至母模型端。此外,分散式訓練的優點,就是「可大規模擴展至端點數千臺裝置,」也因此非常適合大規模應用,比如金融或虛擬助理。

只做到分散架構還不夠,「雖然分散式訓練不必將訓練資料回傳,但還是要定期上傳模型統計值。」孫民指出,有心的駭客會利用這一點,從統計值中推估出特定原始資料。

為解決這類資安隱憂,聯合學習還加上了差分隱私這個機制。差分隱私能在回傳的統計值中,增添雜訊(Noise),讓駭客無法推敲出特定個資,同時又不影響模型表現。「Nvidia也利用聯合學習的優勢,在去年與倫敦國王學院聯手,進行醫療影像AI的訓練和部署專案,」他說。

聯合學習集這三大優點於一身,不只能執行省成本的分散式訓練,還能確保資料安全,符合日漸嚴謹的個資規範。面對因疫情而進行居家隔離的獨居長者,也許能透過聯合學習加持的AIoT遠距照護,來掌握健康情況,同時又保障隱私。

不只遠距照護領域,孫民今年初甚至預測,聯合學習會是未來5年的熱門AI技術。文◎王若樸


Advertisement

更多 iThome相關內容