數發部推動我國主權AI發展再進一步,今天(12/24)正式推出臺灣主權AI語料庫,目前語料庫已有文化部、教育部、客委會、原民會、交通部、海委會等超過200個政府機關參與,提供超過2千筆的資料集,相當於6億的Tokens,涵蓋文化藝術、教育、地理、語言、醫療、交通等資料。

今天開始對外釋出的語料庫,上面分為2部分,一部分為僅供AI訓練使用的授權資料,需提出申請,通過審核方能使用,另一部分為開放資料,開放自由下載。外界欲使用必需先提出申請,先以自然人憑證或工商憑證確認身分,提出語料使用的目的,經數發部約7天的時間進行審核,開放申請者下載資料集。目前這些資料提供的電子檔,包括PDF、JSON格式。

數發部資料創新司司長莊明芬指出,由於語料庫採用授權條款,必需提出申請,提供語料使用目的文件後,經審核提供授權帳號給申請者。語料庫採與國際共享資料接軌的FAIR原則,即Findable (易查找)、Accessible (易取得)、Interoperable (可互通)、Reusable (可再利用),採通用的PDF及JSON格式,讓開發者容易查找、容易使用,並可供AI訓練再利用。

目前語料庫上提供的語料,多為中央政府部會及機關釋出,未來將擴大至地方政府,並鼓勵民間將資料上架至語料庫。

為何需要主權語料庫?

數發部次長侯宜秀表示,數發部促進國內AI發展的5項策略,算力、資料、行銷、人才、資金,在資料方面,促進資料創新利用發展條例草案目前已由行政院審議討論中,相信很快會送交立法院;另外,為促進政府機關之間的資料分享交換,數發部也正進行資料匯流隱私強化工作,這些都為臺灣提供資料應用發展的基礎。

在全球各國競相發展AI的時代下,外界關心各國AI發展的護城河是什麼?侯宜秀認為,算力不算是護城河,真正的護城河是資料及人才,臺灣獨有資料除了我們自己,沒有其他國家或科技公司會提供協助,必需我們自己來作;不只是過去的資料,更重要的是讓未來持續產生資料,建立良好機制,讓資料能夠被用來發展AI,這正是主權AI語料庫要建立的機制。

侯宜秀補充說明,主權AI語料庫一開始會先在政府部門內建立協作機制,促進政部部門將過去的資料、持續新增的資料放到語料庫,接下來是與民間單位合作,讓民間資料納入語料庫,鼓勵開發者、研究,甚至讓Google、DeepMind等AI科技運用這些資料,讓LLM模型更符合臺灣的需求,同時也促進新創公司有足夠資源發展符合臺灣需求的AI,增加臺灣文化、價值在世界的能見度。

莊明芬表示,語料庫是AI發展的重中之重,以「土豆」為例,在中國指的是蕃薯,在臺灣指的是落花生,因此餵養AI的資料會影響其所產生的答案。加強AI語料中繁體、正體中文的比重相當重要,可讓大型語言模型能理解臺灣的價值、政經文化。

3大策略以資料推動主權AI發展

因此,數發部有3大策略,第1個策略是建立臺灣主權AI語料入口網,打造臺灣語料發展的基礎建設,支援主權AI模型的訓練需求;第2個策略是對A發展中的著作財產權處理,提出促進資料創新利用發展條例,對資料合法合規共享提出清楚的規範;第3個策略是強化語料來源,促進公私部門語料釋出,提升語料庫的深度及廣度。

首先是第1個策略的語料庫方面,目前數發部已建置臺灣主權AI語料庫入口網,並強調上面提供「高品質、在地的正體中文資料」,涵蓋具有臺灣文化特色及觀點,例如政治、社會、經濟、歷史等等,這些正體中文資料為語意連貫、內容完整,而非數字、圖表或條列式的文字。語料庫的資料必經過人工審核為人工創作的資料,並以電子檔釋出。

第2個策略是促成資料的共享利用,數發部提出促進資料創新利用發展條例草案,其中的精神是促進資料開放、共享、再利用,促進政府資料開放、產業及民間資利他運用。

莊明芬補充說明,促進資料創新利用發展條例草案第26條,對於政府機關將政府資料作為開放資料,應採標準授權對外釋出,可作為人工智慧及其他新興科技研發使用;第27條規定,政府機關將政府資料作為共享資料提供利用,應以非專屬授權利用方式,以供AI等新興科技利用。

數發部也與經濟部智財局合作,共同制定臺灣AI語料庫的授權條款,目前為第1版,強調提供一次性授權,希望在促進AI發展及著作權保護間取得平衡。莊明芬表示,透過一次性授權減少個別著作權商議的行政成本,同時解決AI使用語料的著作權爭議。

其中在授權人方面,在授權人的明確同意下,讓其提供的語料能被人工智慧訓練所使用,包括授予被授權人重製、改作、編輯及其他著作權和著作相關權利上必要的使用權,使其合法用於AI訓練;而被授權人則有明確標示的義務,包括使用的資料集及提供者,而以AI產出內容也應標示人工智慧生成產出,落實透明原則。另外,也要求訓練的成果不應與原語料實質近似,對原語料的市場或價值造成負面影響。

第3個策略促進公私部門資料釋出,數發部已舉行說明會,對政府部會及機關說明政府資料釋出,並透過工作坊加速政府機關將資料上架。

促進公私部門資料釋出,第一階段先以中央部會機關為主,明年將開始擴大到地方政府及機關 ,以及向民間業者推廣。

熱門新聞

Advertisement