圖片來源: 

攝影/余至浩

在臺灣人工智慧年會最後一天(11/14),新任Google臺灣董事總經理馬大康擔任活動最後一場壓軸,他現場也分享近幾年Google全球AI方面的重要進展,並歸納提出7項未來AI技術挑戰與機會,包括建立雲端與邊緣的分散式學習架構、加入AI偵錯、容錯能力,以及零接觸AI應用新機會等。

這也是馬大康今年接任Google臺灣總經理一職後,首度在公開場合出席活動,就選在臺灣人工智慧年會。但有別於Google前臺灣董事總經理簡立峰3年前在大會主題演講是以AI在臺灣的新機會為題,馬大康今天則聚焦Google全球在AI方面的最新進展。

馬大康表示,現今Google的AI應用,在大家日常生活已隨處可見,常見如Gmail收信用的過濾垃圾郵件機制,或是全球10億用戶每天用的Google相簿裡的智慧化檢索,都有運用大量AI技術,來提升其服務品質,而且不只加入AI功能,並持續改良,如最早導入AI技術的Google Search服務,近來就透過使用神經網路技術BERT,來大幅改善其搜尋品質,甚至不只能輸入文字查找,現在也能叫Google語音助理幫你搜。除了生活類應用,在其他環境、醫療等全球重大議題上,也都有不少AI應用的著墨。

但講到現今AI的發展,馬大康仍以AI石器時代來加以形容,現階段全球AI發展仍在起步階段,未來還有很大成長空間。他並歸納出7項未來AI技術挑戰與新機會。

首先是建立包含雲端與邊緣端的分散式學習架構。他指出,以往訓練資料量多寡,與AI學習成果會有影響,但未來在模型訓練上,須符合更嚴格相關資料使用規範,像是不只得考慮到資料使用者的隱私權,也得要確保這些訓練完的模型在推論上能不偏頗且符合公平性。為了做到這些事,分散式學習架構的建立,就十分重要,甚至他強調:「這是未來幾乎所有AI學習架構都要採用的新方式。」

以Google作法為例,早在5年前就開始建立分散式學習架構,來優化Android裝置上Gboard虛擬鍵盤的選字建議,他們以聯合學習(Federated Learning)技術設計一套分散式機器學習方法,憑藉不必上傳敏感性資料,而是先在用戶手機上進行模型訓練後,再將訓練完的模型參數與抽像化使用者資訊傳回雲端中央伺服器來優化,藉此達到與集中式機器學習相同的訓練效果,同時又能維護使用者的隱私。接著再將模型優化後的參數更新到每支用戶端手機上。

如今,透過這種分散式學習架構,Google已從全球超過5億支Android手機中持續累積並蒐集其用戶鍵盤使用資料,用於選字AI模型優化。他表示,至今不論是在建議文字、句子,或是表情符號與生動圖片的推薦都有相當出色表現,甚至未來亦可加入影片分享的推薦。

但他也提到目前Gboard的AI應用挑戰,像是在面對一些自創文字或新的符號的學習效果就不是太好,如年輕人常用的火星文或KUSO符號等,導致最後推薦結果並不是很準確。這也帶來新挑戰,他強調,未來10年AI演算法或深度學習模型的發展,不只要做到分析結果的精確,更需要具有偵錯的能力,能從複雜分析過程中找出哪段資料使用可能出錯,以避免產生不正確的推論結果或偏見。

除了以用戶Gboard資料做訓練要確保隱私權,馬大康指出,目前Google所有AI產品或服務,都須符合Google內部一套AI規範的最高指導標準,該規範尤其強調隱私權、公平性、不偏頗,以及妥善使用蒐集到的使用者資訊等,並已落實到旗下所有AI應用或服務的開發上,都要求嚴格來遵守。

馬大康提到第2項AI挑戰,則是要找出新方式,來降低手機端資料的傳遞,避免對於使用者生活造成影響。第3項則是針對重要邊緣裝置,如手機等,當蒐集資料量不夠多時,也需要考慮到一些替代方案的可行性,例如以少量資料依然可達到與用大量資料訓練相同或更好地的AI學習結果。

另外,在分散式學習架構下,雲端AI模型必須有足夠的容錯能力,才能在遇到傳輸資料分析不完整時,減少對其學習效果的影響。他指出,方法之一就是得靠大量裝置端用戶資料的蒐集來改善,而他認為,這樣的高度AI容錯能力的建立,也是未來其研究重要發展的方向。這是第4、5項挑戰。

至於第6項,則是如何讓既有模型學習新字彙或符號,或是運用AI模型幫助大眾判斷假新聞,同樣是未來AI另一大挑戰。最後,因受到Covid-19疫情的影響,也改變人類生活型態,進入到以零接觸為主的新常態,包括遠距工作等,他表示,這也將使得AI應用有所改變,從傳統字彙理解快速演變到聲音及影像的學習,不只技術難度變更高,以後也需要更加龐大的資料量加強模型訓練,這也將帶來AI新機會。


Advertisement

更多 iThome相關內容