Google改進虛擬鍵盤Gboard所使用的差分隱私技術，提供更強的隱私保護

Google行動虛擬鍵盤應用程式Gboard中的所有下一個單字預測（Next Word Prediction，NWP）的神經網路語言模型，現在均採用聯合學習（Federated Learning，FL），並且提供差分隱私保證。另外，Google還進一步使用先進的演算法和增加參與模型訓練手機數量，來達到更高的隱私標準。

Google從2017年以來，開始研究以聯合學習私密訓練Gboard語言模型，並在2022年正式應用差分隱私。聯合學習允許行動裝置在不共用資料的情況下協作訓練模型，而差分隱私則是提供資料匿名的可量化衡量標準。

目前超過30多個Gboard裝置上語言模型，已經在超過7種語言和15個以上的國家中推出，並且具有差分隱私保證，Google提到，這是目前已知最大的用戶等級差分隱私部署，並且針對直接使用用戶資料訓練的模型提供差分隱私保證。

Google向Gboard用戶提供資料使用相關資料，包括資料的使用目的、處理方式，並讓用戶可以簡單配置學習模型的資料使用。聯合學習只會聚合有助於特定模型改進的更新，來最小化資料使用量，而且Google所採用的安全聚合（SecAgg）加密方法，進一步保證聯合學習只能存取臨時更新的聚合結果，確保只有合併後的更新資訊會被用於改進模型，且不會使用任意個別用戶的資料。伺服器也應用差分隱私，來防止模型記住單一使用者訓練資料中的獨特資料。

Gboard中所有打字預測模型都具差分隱私保證，代表著在使用用戶打字資料改善預測準確度的同時，也就能確保個人資料的匿名和安全。在聯合學習中，Gooogle透過使用多語言C4資料集預訓練模型，並在公共資料集中進行實驗模擬，找出一個最佳的雜訊比，使模型能夠有效運作卻又不會洩漏個人資料。在限制用戶於一定時間內只能貢獻模型一次，將有助於提升隱私，並且限制每次更新對模型的影響程度。

而在運用差分隱私保護用戶打字隱私的同時，Google也持續改進差分隱私，將模型隱私保護強度提高至新的層級，特別是在巴西的葡萄牙語和拉丁美洲的西班牙語模型，官方提到，透過使用先進的MF-DP-FTRL演算法，並讓每輪參與伺服器模型更新的裝置增加至12,000個，就能達到更強的隱私保證。

Google對聯合學習與差分隱私的研究，證實透過客戶端的參與度和系統演算法設計，實作差分隱私是可行的方法。當人群規模龐大且匯集大量裝置的貢獻時，隱私和效果都可達到較高的水準。而隱私審查結果證明了，即便是差分隱私最壞的情況發生，實際上其所提供的保護仍高於預期。

目前Google正在研究機器學習相關的所有隱私方法，並且擴展差分隱私技術，使其可用於分散式系統，同時Google也在增加系統的可稽核性和可驗證性。

熱門新聞