IBM Watson解決方案亞太區技術長Dev Mookerjee(攝影/洪政偉)

去年,澳洲雪梨一場突如其來的冰雹,網球般大小的冰塊從天而降,是當地20年來最嚴重的一場,保險公司收到超過2萬筆理賠申請,其中四分之一是房屋毀損,預估賠償規模達到臺幣數十億元。美國同樣也常發生冰雹災情,一家美國保險公司想到了用AI影像技術,來處理房屋冰雹損傷的檢查,尤其是新舊冰雹損傷的辨識,作為理賠範圍的認定參考。

為了訓練這樣的AI模型,保險公司蒐集了大量受災房屋外觀的高解析度照片,分割成大批小型影像來分析,最後成功訓練出一個來分辨損傷新舊程度的深度學習模型,但是,保險公司卻遇到了一個新挑戰。他們得向保戶解釋,AI如何判斷這個撞痕是「舊傷」,所以,無法理賠。

IBM Watson解決方案亞太區技術長Dev Mookerjee用這個真實例子,來反應AI可解釋性的困難和重要性。法規要求業者必須解釋理賠與否的原因,不能模糊帶過,但Dev Mookerjee坦言,雖然,保險公司已經可以得知,AI透過哪些影像特徵來推論傷痕新舊,「他們仍難以解釋,為什麼這張影像是新損傷的信心值是70%?」這就是AI進入實際生活時遇到的「可解釋性」(AI Explainability)考驗。

隨著AI技術走向應用場景,人們開始參考AI的意見來做決策,例如,銀行用AI來評估借貸人的信用、保險公司用來判讀理賠風險、醫院做為用藥依據等。然而,AI的不可解釋性越來越成為進入實際場域應用的挑戰,可能導致模型判讀受偏誤資料影響卻無從得知,或者因缺乏解釋而難以取信於人。

歐盟去年五月祭出的資料保護規範GDPR(General Data Protection Regulation),其中的「透明處理原則」,就是針對「個人化自動決策」(Automated Individual Decision-Making) ,賦予用戶請求解釋、拒絕適用的權利,更讓AI可解釋性成為所有AI應用都必須解決的課題。

歐盟先將可解釋性AI(Explainable AI,XAI)提升到法律層面來探討後,也讓他國政府開始重新思考AI的應用。例如美國在今年草擬「演算法問責法案」(Algorithmic Accountability Act of 2019),除了規範個資運用原則,也賦權用戶更正或拒絕個人化自動決策;而亞洲,則有新加坡個人資料保護委員會,今年1月頒布「人工智慧監管模式框架」,規範AI的決策過程必須盡可能的達到可被解釋、透明且公正的目的。

「可解釋性AI無疑是重要的。」IBM Watson解決方案亞太區技術長Dev Mookerjee表示,如果銀行用AI來評估授信放款的風險,那銀行就必須要能解釋,AI決定不借貸給某個客戶的原因,以及決策本身的正確性。

發展可解釋性AI面臨的挑戰

Dev Mookerjee指出,AI可解釋性挑戰主要發生在2大類型的AI模型上,包括深度學習模型,以及用非結構化資料訓練的模型。

近年再次帶起AI應用浪潮的深度學習,最大強項就是,不需要像過去那樣提供規則或特徵,只要準備大量訓練資料,深度學習模型就會自己找出具有預測推論能力的模型,但這也是其缺點,因為「說不出來」為何如此。

Dev Mookerjee表示,儘管結合深度學習與知識圖譜(knowledge Graph)的技術,可以建構出資料之間的關聯,例如透過解析句子與句子之間的語意關係,來優化聊天機器人語意理解模型,但是,知識圖譜仍然只是一種特徵提取的技術,要瞭解聊天機器人如何決策,還是需要其他技術來輔助解釋。

此外,結構化訓練資料又比非結構化的訓練資料更容易被解釋,他以最近正在訓練的一個法律AI模型為例,「這個模型的目的是,在合併和收購討論期間,檢查供應商合約中的智慧財產權重疊部分。」Dev Mookerjee表示,當一個AI模型設定的目標越明確,訓練資料越收斂、不可控的變因越少,模型也就更容易被解釋。這個法律AI模型因為目標明確,也就利用了許多結構化資料。

但是,「加入非結構化資料後,AI解釋的過程就會變困難。」Dev Mookerjee用另一個澳洲政府個人居住補助金發放評估模型為例。澳洲政府綜合了個人資料,加上申請者對於自己處境的描述,去設計一個模型來評估個人居住補助金的發放。這兩種資料的差異是,個資是屬於結構化資料,如性別、年齡、居住地、收入等,用來訓練模型較容易解釋預測結果。而申請者自己的描述性文字,則是一種非結構化資料,可能會包含申請者的家庭關係、工作場景、醫療狀況、心情等複雜因素,並無固定的格式,「往往,1,500字的描述中,約有20%的資料完全用不上。」他坦言。

Dev Mookerjee表示,非結構化的資料除了常見的文字,還包括了圖片、音樂、影片、PDF、網頁,以及網頁上的用戶行為等。儘管非結構資料會影響模型被解釋的程度,但在特定領域,或不需要解釋的應用上,非結構化資料已經被廣泛應用。

反而是,他提醒,還有許多新型態的資料形式,將是可解釋性AI的大挑戰。例如透過聲音發出的頻率去訓練模型,來判斷機器是否有故障風險,又或者無線電波、地質資料的應用,「我們還有很多新形態的資料沒有接觸過。」Dev Mookerjee表示。

LIME可找出影響AI的關鍵特徵

企業應用AI必須有全面性考量,從個人化體驗、資安結構、隱私監管、AI信任和透明度問題等。──IBM Watson解決方案亞太區技術長Dev Mookerjee 攝影/洪政偉)

難道,可解釋性AI真的無法可解?不,現在有一些作法試圖解釋AI,但還不夠好。

Dev Mookerjee指出,早在2016年,學術圈就提出一個提高AI解釋力的模型設計概念,稱為LIME(Local interpretable model-agnostic explanations)。LIME透過針對一筆訓練資料中的局部特徵(features)進行干擾,來觀察是否會影響預測結果,藉此判斷訓練資料中的哪些特徵,對於模型決策有更關鍵的作用,藉此來找出偏誤(bias)的資料。

例如,用LIME去檢測某客戶申請保險索賠、模型卻判斷有90%不合適的原因,得出「未達年齡限制」影響力佔45%、「索賠頻率過高」佔32%、「女性」占8%,這時候,就能發現性別可能為偏誤的資料,必須重新調整模型;相同的,也能找出另外10%通過的原因,例如「擁有個人帳戶」影響力佔6%等。

雖然LIME可以用來找出偏誤資料,但Dev Mookerjee也強調,並非所有偏誤資料都必須去除,在特定情境下,反而必須維持資料偏誤,才取得相對應的結果,例如,某一類藥物專治女性的某種症狀,儘管這種症狀男女都會有,但在訓練資料中還是必須去除男性的考量。

然而,Dev Mookerjee坦言,即使用了LIME,深度學習模型在信心值的解釋上仍然是挑戰,就像是用影像辨識模型分辨哈士奇和狼時,雖然能夠利用LIME的技術,來找出哪些特徵點是分辨的關鍵,例如眼睛、耳朵比其他特徵更容易影響預測結果,但卻很難解釋,為什麼模型認為這張圖有80%的信心值是狼?而不是90%?這是尚未克服的難題。

對比是提高AI解釋性的另一個作法

針對AI可解釋性難題,Dev Mookerjee表示,IBM還有一項自行研發的技術,稱為「對比解釋方法(Contrastive Explanations Method,CEM)」。

這套方法是透過對比出訓練資料缺少的特徵,對模型表現形成更完整的解釋。舉例來說,流行感冒和肺炎都會有發燒、咳嗽、感冒的症狀,但讓AI模型判斷是流行感冒而非肺炎的原因,是因為病人「沒有」多痰或畏寒的症狀,才做此解釋,這是從對比的方式來解釋模型的預測。

後來,IBM結合LIME和對比解釋方法,發展出了一套試圖用來解釋AI的工具Watson OpenScale,透過輸入資料與預測結果的關聯,找出影響模型決策的因素(factors),進而檢測出偏誤的資料,並自動修正來優化模型。Dev Mookerjee解釋,這就像要了解人類的決定,必須去探討他的出生背景、教育程度、生活經驗,同理,這套方法也適用於AI。

不過,Dev Mookerjee沒有透露,這套工具的AI解釋能力可以做到多好。他僅坦言,目前OpenScale主要用於機器學習模型,由於深度學習又比機器學習更難解釋,是未來要優先發展的重點。除了支援IBM Watson之外,OpenScale也支援Amazon ML和Azure ML等其他雲端業者的AI產品,可用於TensorFlow、Keras、Scikit-Learn,SparkML、PMML等框架建立的模型。

資料隱私必須納入AI應用的框架

除了可解釋性AI是現今AI應用的挑戰,Dev Mookerjee指出,歐盟GDPR嚴格的個資運用規範,同樣帶來了訓練AI模型的資料隱私問題。

Dev Mookerjee表示,由於AI框架並非與隱私直接相關,所以許多人僅將AI視為一種技術,沒有把隱私的框架納入考量,「但當隱私成為特定AI應用的重要考量時,在設計AI框架時就必須納入隱私概念,這是不能妥協的。」這也正是近1年來新興的Privacy by design概念。

舉例來說,近來銀行流行打造Chatbot服務,若要讓用戶可以直接查詢帳戶餘額,得先提供姓名、帳戶、電子郵件等KYC資訊,才能取得對應的結果。此時,若Chatbot部署在公有雲上,「這個看似協助回覆問題的Chatbot,光是傳送個資與資料庫比對、搜尋的過程,就有曝光個資的風險。」Dev Mookerjee表示,在Chatbot服務設計之初,就要考量到與後臺的串接、資料傳送加密,或在架構上將Chatbot部署於私有雲環境。

另外,他提醒,還要將資安與隱私分別處理。保護隱私是因應監管機關要求,以符合法遵要求為主。但「資安防護,則是不論建立基礎設施或chatbot都必須用高標準。」Dev Mookerjee建議企業,開發AI應用時,也可以引進DevSecOps概念,也就是在程式編寫過程就做好資安防範,而非開發人員和資安人員各作各的無交集,「DevSecOps雖是用於開發流程的安全性,但AI開發上也適用。」

在Dev Mookerjee參與的專案中,澳洲有家銀行建置AI環境時,也採用了DevSecOps的概念,在開發每個程式之前,所有參與專案的負責高層、技術人員共24個人,花了6、7個星期一起開會,從底層的基礎設施、資料庫、網路系統、閘道器到網站,將資安與隱私納入考量,「他們不是從法規面來討論,而是從銀行需求面討論如何將資安防護做到最好。」

未來,AI要協助企業做到的,是串接起各式各樣的服務且走向自動化。Dev Mookerjee舉例,當客戶透過chatbot申請失業、要求延遲支付債款時,內部機制將自動對該客戶做標記,一旦付款通知的Email將被發送,系統會因標記而將信件攔下、從名單上移除,讓顧客體驗更即時、私密。

因此,Dev Mookerjee表示,為了提升客戶體驗,企業應用AI時,必須更全面性的考量到許多因素,「從個人化體驗、資安結構、隱私監管到AI的信任和透明度,都必須被重視。」

  CTO小檔案  

IBM Watson解決方案亞太區技術長Dev Mookerjee

學歷:澳洲坎培拉大學資訊碩士、澳洲Macquarie管理研究所商業管理碩士

經歷:2018年開始擔任IBM Watson解決方案亞太區CTO,在加入Watson團隊之前,曾任職IBM全球技術大使,領導亞太區技術團隊發展數據分析、機器學習、AI,擁有近20年社群媒體分析的經驗。

  公司檔案  

IBM

● 網址:www.ibm.com

● 成立時間:1911年

● 總部地址:總部位於美國紐約市,全球177國皆有據點

● 執行長:Virginia Rometty

● 年營收: 2017年791億美元

● 全球員工人數:約36.6萬人(2017年)

  公司大事記 

● 2004年:出售個人電腦事業部門,更聚焦企業市場

● 2009年:買下統計軟體SPSS,強化資料分析技術

● 2011年:IBM 新一代超級電腦 Watson20誕生,也展開了Watson認知服務的品牌和產品線

● 2012年:買下SoftLayer展開雲端布局

● 2014年:出售x86伺服器業務,更聚焦AI和雲端業務

● 2015年:併購兩大產業數據巨頭Merge Healthcare和The WeatherCompany

● 2018年12月:出售Notes/Domino等產品

● 2019年7月:正式以340億美元併購紅帽,大力揮軍AI及混合雲


Advertisement

更多 iThome相關內容