數位部在去年12月成立AI評測中心,要來制定臺灣的AI產品與系統評測制度和指引。目前已針對大型語言模型制定10項測試類別,如安全性、彈性、可解釋性等。(圖片來源/數位部)

「我們最快3月底公布AI評測制度和指引!」負責AI評測業務的核心成員、數位發展部數位產業署副署長林俊秀說道。

就在去年12月,數位發展部成立了AI產品與系統評測中心(簡稱AI評測中心),還預告要制定「AI產品與系統評測制度」與「AI產品與系統評測指引」,來設置臺灣AI產品檢測和驗證標準。如林俊秀所言,這些制度和指引,最快會在今年第一季末出爐。

AI評測中心的出現、AI產品系統評測制度和指引的到來,是否意味著AI廠商與企業,必須通過數位部AI評測,才能販售或使用AI系統?

臺灣AI行動計畫2.0催生出AI評測中心

這些疑問,得從AI評測中心的設立談起。去年,臺灣AI行動計畫2.0正式展開,在1.0計畫的基礎上,進一步深化5大層面的AI發展,包括人才、技術和產業發展、國際影響、運作環境和人文社會等。

其中的「運作環境」,不只是要完善法規制度、資料治理環境,還涵蓋成立AI產品和系統評測中心、加速發展接軌國際的AI規範與標準、對通用領域和特定領域設置AI法規等面向。

因此,去年12月初,數位部成立了AI評測中心,要推動臺灣AI評測制度、發展可信任AI環境。同時,在法規部分,我們看到了行政院在去年8月祭出公部門使用生成式AI的指引參考,國科會也聯手其他部會草擬AI基本法,預計在今年上半年公布。而在產業規範部分,金管會則率先開出第一槍,領先其他產業主管機關,在去年12月底發布金融業運用AI指引草案,來提供金融業者使用AI的建議。預計接下來,還會有其他主管機關跟進,如衛福部、NCC、交通部等,針對各產業提出AI系統的使用建議。

評測瞄準廠商和企業,將配合產業主管機關來推動

制定「AI產品與系統評測制度」和「AI產品與系統評測指引」是AI評測中心今年的首要目標。就評測制度來說,目的是要檢測AI產品或系統,是否符合國際對AI系統的要求,比如安全、可靠、透明等。

至於檢測對象則有2種,包括銷售AI產品和系統的廠商,以及以AI驅動服務的企業。「不論這個服務是對內還是對外,我們都希望企業能來送測,」林俊秀補充。尤其,數位部自去年開始推動AI技術服務機構服務能量分類與登錄機制,來建立一份有符合資格的AI廠商清單,而這些廠商,將是AI評測中心第一波鼓勵送測的對象。

林俊秀強調,AI評測不具法律強制力,數位部不會強制要求所有廠商和企業送測,但「會用推廣的方式,先鎖定政府單位,如國家關鍵基礎設施、各產業主管機關等,搭配這些機關制定的AI指引,來向他們說明、推廣檢測制度。」他說。

意思是,國家關鍵基礎設施主管機關或各產業主管機關,會制定適合該產業的AI指引,如金管會制定的金融業運用AI指引草案,AI評測中心就會配合這些指引,來與主管機關討論、說明,並鼓勵其管理的產業業者申請送測。

比如,金融業運用AI指引草案,建議金融業者採用的AI系統4大生命周期,需符合公平性、可解釋性和透明性等原則。而AI評測中心的檢驗項目包含這些原則,此時金融業者或廠商,就可申請送測AI系統,以證明系統符合指引建議。

不只針對國家關鍵基礎設施和產業主管機關,林俊秀表示,AI評測中心也瞄準民間集團和業者,將對這些對象主動說明評測制度,鼓勵業者申請送測自家AI系統。

所以,廠商和企業是否必須通過AI評測,才能販售或使用AI系統?答案是不用。從林俊秀口中可得知,這些制度和後續出爐的AI評測指引,都不具備強制效力。但若各產業主管機關紛紛祭出產業AI運用指引,來建議各產業業者如何使用AI,勢必會帶起系統評測強勁的需求。

今年鎖定生成式AI,已建立生成式AI評測題庫

AI系統包羅萬象,AI評測將先瞄準哪些領域?

林俊秀點出,這兩年生成式AI遍地開花,AI評測中心今年也鎖定生成式AI,先制定合適的測試題目,作為衡量生成式AI的考題。尤其,他們已針對大型語言模型(LLM)制定10項測試類別,包括安全性、可解釋性、彈性、公平性、準確性、透明性、當責性、可靠性、隱私及資安等。

其中的公平性、準確性、可靠性、隱私和資安等5大類別,採考題方式來評測。舉例來說,可靠性是要判斷模型的敏感度,也就是AI系統在面對未預期的狀況時,也能維持良好的表現和預測能力,因此常見的考題,就是提問中出現錯別字,來判斷模型能否依然正確回答。數位部目前共設計了3,000多道題目,接下來還會繼續新增。

至於安全性、可解釋性、彈性、透明性、當責性等5項類別,數位部打算以設計文件、規格文件等作證資料,採人工審核方式進行。不過,確切的測試方式還在討論中。

另一方面,林俊秀也透露,他們已用這些測試類別來衡量國科會打造的國產語言模型TAIDE,包括70億參數(7B)和130億參數(13B)版本。不過,林俊秀補充,這10項類別只是生成式AI測試的一環,模型就算通過10項測試,還是得接受完整的系統檢測,合格後公部門才能正式使用。「檢測TAIDE是我們今年的重要目標!」他說。

今年1月,AI評測中心還揭露,這10項測試中的5項已能自動化測試。接下來,AI評測中心除了繼續擴充LLM題庫,還會制定生成式AI以外的傳統機器學習系統評測標準,如適用於影像辨識模型的測試題,來逐步完善臺灣AI系統評測制度。

由2大組織執行評測

有了考題之後,AI評測制度還有賴2大關鍵組織來落實。第一個組織是AI測試實驗室,也就是負責執行AI產品和系統檢測的單位,另一則是用來把關這些測試實驗室的AI驗證機構。

這些測試實驗室可由民間業者擔任。業者必須符合國際AI相關規範、取得財團法人全國認證基金會認證,才能評測廠商或企業送測的AI系統。林俊秀指出,他們也可能仿照AI技術服務機構服務能量分類與登錄機制,建立一份AI測試實驗室的政府名冊,來管理檢測品質。

至於AI驗證機構,則將由資安研究院和工研院組成。他們的目的是把關測試實驗室,以及維持市場秩序。林俊秀解釋,由於測試實驗室可自行決定服務和定價範圍,但AI評測中心會扮演市場秩序維護角色,因此AI驗證機構會負責認定測試實驗室的報告,並剔除破壞市場機制的不良測試實驗室,來確保檢測一致性。

不只如此,AI驗證機構還有其他任務,比如研究新興AI技術、判斷是否需更改評測方式和題庫等。驗證機構還能根據評測項目,來要求旗下AI評測開發實驗室研發自動化工具,加速檢測作業。林俊秀就點出,他們今年會開發2類自動化工具,一類是給AI測試實驗室使用,以加速評測作業,另一類是給AI廠商或企業,讓他們在送測前,先透過自動檢測工具來判斷自家AI系統是否達到檢測標準。

另一方面,就接下來要公布的AI評測指引而言,可細分為2種,包括AI產品與系統基本規範,以及AI產品與系統基本檢測基準。前者涵蓋了適用領域、風險管理、評測項目和規範細則,後者則指每項評測的作法說明,另也根據不同適用領域或風險等級,而制定的不同評測項目。

林俊秀表示,他們在制定這些指引時,參考了各大國際AI標準和規範,如美國國家標準暨技術研究院(NIST)的AI風險管理框架、歐盟AI法案、ISO相關標準等。「指引(草稿)大都擬訂好了,若這些規範有所調整,我們也會與時俱進。」林俊秀表示,接下來,他們將召開AI制度委員會,來決定AI評測指引內容,並盡快公布。

屆時,這份評測指引會明定更多AI評測的細節,如評測效期,也就是AI系統通過評測後的合格期限。林俊秀補充,要是送測的系統出現改版或重大更新,AI評測中心會要求業者重新送測,以確保檢驗品質。

 10項LLM測試重點 

 1. 安全性:AI系統某些功能失效時,所產生的回應與風險

 2. 可解釋性:AI模型的輸入與輸出,是否存在因果關係或關係的描述

 3. 彈性:AI系統能適應不同環境、需求和條件

 4. 公平性:AI系統能公平對待不同群體和個體

 5. 準確性:衡量AI系統的輸出與真實結果的接近程度,即擬合程度

 6. 透明性:糾正AI系統運營商和消費者之間的資訊不平衡

 7. 當責性:AI系統開發者和使用者需對系統的行為或操作負責

 8. 可靠性:評量系統在面對未預期的狀況時,能維持良好的表現和預測能力

 9. 資料隱私:將可能造成隱私的衝擊嚴重程度分級,以實現風險評估與掌控

 10. 系統安全:AI系統面對外部攻擊、未授權訪問或不當使用時,能保護其資源、功能和資料的完整性和機密性

資料來源:AI評測中心,iThome整理,2024年2月

熱門新聞

Advertisement