國科會TAIDE計畫負責人李育杰指出,這次計畫不僅提供公部門和企業簽約免費使用TAIDE模型,還會陸續釋出高品質的繁中訓練資料集,來推動臺灣LLM發展。

「臺灣也要有自己的ChatGPT!」這是國科會主委吳政忠在今年2月新春記者會上揭露的重磅消息。

現在,10個月過去了,國科會打造的臺版ChatGPT不只有70億參數模型的初步成果,也開始進入公部門應用討論階段,更預計明年初釋出130億參數版本供企業和公部門免費使用,並展開700億參數的模型訓練。這套模型名為可信任AI對話引擎(簡稱TAIDE),以繁體中文資料訓練而成,主打以臺灣文化為基底,具備臺灣特有用語、價值觀和文化知識,能回答在地使用者問題。

國科會TAIDE團隊,如何發展臺版大型語言模型(LLM)?

3階段打造本土化基礎模型

他們採成本高、步驟最完整的方法來打造TAIDE。有別於從無到有自行開發一套模型,團隊以開源LLM為基礎,利用自行建置的繁中語料,來對LLM進行連續預訓練(Continual pretraining)、微調和人類回饋強化學習(RLHF)等3階段優化,完成品即是TAIDE模型。

第一階段的連續預訓練,是要用大量繁中資料,來讓模型學習基礎知識。更貼切的形容是,讓模型學會文字接龍,比如「臺」後有70%機率接「灣」、10%機率接「北」、4%機率接「中」、還有10%是其他字等,讓模型「從訓練資料中,了解字與字之間的條件機率分布,」李育杰說。

為盡可能建置足夠量的訓練資料集,TAIDE團隊收集了新聞、政府公開資訊和研究資訊、繁中維基百科和學術論文等10種資料,製作成繁中語料集,來訓練模型。由於這階段使用的資料量最多,通常是模型參數量的20倍,例如70億參數,需要多達140億個訓練Token。因此最耗費運算資源,訓練時間最長,若無建構良好的高速平行運算環境,可能耗費數月之久,難以符合現實要求。

再來是微調(Fine-tune)階段,也就是用問答組資料,來讓模型學習特定任務,比如翻譯。微調作法又可細分為2種,一是全參數微調,較耗費運算資源,但模型學習成效較好。另一種是參數高效能微調(PEFT),也就是採用LoRA、P-Tuning等常見壓縮技術,只對模型部分參數微調,以較省運算資源的方式,來試圖達到全參數微調的效果。

在這個階段,TAIDE團隊收集了42萬筆資料,包括ChatGPT問答組(只用於第一代LLaMA,後續Llama 2商用版本並未使用)、繁中翻譯的rm-static資料集、新聞摘要等,採較吃力的全參數微調方式,來讓模型學習特定任務。最後一階段是RLHF,也就是以人工標註模型回答,再以這個回饋來改善模型,如用語更符合臺灣文化和知識。這期間,TAIDE團隊也找來專攻自然語言處理的師生團隊協作開發。

李育杰指出,經這3階段訓練的TAIDE,可作為基礎模型,來讓公家機關或企業,以少量資料微調模型即可應用,不必從頭進行預訓練。使用者也可搭配自家資料庫,以檢索強化方式(RAG),來限制模型回答範圍、降低幻覺,給出更精準的答案。

改以Llama 2為基礎打造臺灣自有LLM

今年4月28日,TAIDE計畫正式展開,團隊首先嘗試不同的開源模型,如BLOOM、第一代LLaMA等。他們發現,LLaMA中文表現最好,因此以它為基礎,來進行一系列的預訓練、微調和RLHF。

由於LLaMA只開放學術研究授權,TAIDE團隊打算先優化LLaMA來供學術研究使用,日後再尋找其他商用授權的LLM,來發展臺灣企業可用的基礎模型。今年6月時,他們展示了TAIDE第一階段成果,也就是以繁中資料優化的LLaMA 70億參數版本,已能執行自動摘要、翻譯、寫信、寫文章等4大任務,且用語符合臺灣文化,表現也比未優化的LLaMA-7b、科大訊飛-7b和Bloom-3b-zh等模型要好。

7月下旬,Meta釋出Llama 2,不只開放學術研究和商用授權,表現還比第一代好。於是,國科會團隊改以Llama 2為基礎,原本打算分別進行學術研究和商用的模型訓練,現在可以同步發展,省下許多功夫。

他們從Llama 2 70億參數版本開始進行預訓練、微調和RLHF工作,打造為TAIDE 7B模型。接著也對130億參數的Llama-2-13b-chat模型進行3階段優化,包括以30億個Token的繁中資料進行連續預訓練、以42萬筆資料進行微調和RLHF工作,打造出Taide-Llama-2-13b-Chat模型。

他們以17種任務來測試模型能力,如問答、寫作、摘要、翻譯、寫程式等,再以GPT-4比較TAIDE模型與其他模型的回答,並打分數。結果,Taide-LLaMA2-13B-Chat大勝第一階段展示的TAIDE模型,表現良好,但這個版本的模型尚未上架,還需更多資料進一步優化,才能正式開放使用。

10月進入公部門討論,預計明年初上架13B模型

打造臺版LLM很重要,但更重要的是如何落地。

為此,國科會TAIDE團隊設置使用者帳號、建立使用平臺,並在10月和11月,陸續舉辦中央和地方公部門的應用工作坊,先讓公部門嚐鮮TAIDE 7B功能、發想可行專案,來加速落地。同時,「我們也開放業界申請,企業簽訂MOU就能免費使用TAIDE模型,省下從頭開始做的成本。」李育杰指出,這正是國科會構想TAIDE計畫時的重要考量,政府出資建造模型,不只彌補國外LLM方案可能的不足,還要帶來產業效益,供企業自行使用或優化服務。

隨著國網中心在10月購入72片H100 GPU、完成裝機,接下來團隊將用這個算力,來優化130億參數的TAIDE模型,讓它具備多輪對話能力,更能記住使用者先前的對話,讓任務執行更有連貫性。

他們預計明年初釋出TAIDE 130億參數版本,同時展開700億參數版本模型訓練,預計明年4月完工。不過,由於TAIDE計畫將於明年4月28日到期,「我們正在想辦法長期維運,讓TAIDE繼續營運下去,」李育杰說。

繁中語料不足和授權是挑戰

在發展TAIDE的過程中,還有一大挑戰要解決。

「我們的訓練資料目前還不夠!」李育杰坦言,撇除無版權的網路公開資料,團隊得使用新聞和出版物等資料,才夠打造完整的訓練資料集。也因此,TAIDE團隊正向新聞媒體、出版社等機構,一一取得授權,來製作訓練模型的繁中語料。但談授權需要時間和經費,目前尚未有明確的時程表。

為打造LLM而取得資料授權,是必須的嗎?「我請教過創立CC授權機制的哈佛大學教授Lawrence Lessig,他表示,將資料用於連續預訓練,屬於合理使用範圍,不需取得授權。」李育杰說明,預訓練目的是要模型學會字與字之間的機率分布,理應不會發生抄襲問題。

但他與團隊還是想取得授權,不只為了製作TAIDE訓練資料集,還有一個更大的願景。

開源繁中資料集來提高國際參與機會

這個願景,就是開源這些高品質的繁中訓練資料集。

「TAIDE計畫走到現在,更讓我體認到,臺灣需要龐大且高品質的繁中語料庫!」李育杰深知,繁中資料集稀缺,難以帶動本地LLM技術發展,但「有系統地收整資料、發展國家性的繁體中文語料庫,不只對TAIDE模型訓練有幫助,對未來的LLM研發,甚至是整體AI發展,都會有很大的影響。」

而且,有了這些資料集,臺灣也更有機會參與國際AI研究。他舉例,如OpenAI、Google、Meta等科技巨頭打造新一代LLM時,就能使用臺灣開源的繁中語料。

目前,TAIDE計畫已陸續釋出一些資料集,如字典、中央及地方政府機關常見問題QA等,未來還會釋出更多資料集。「想建置完善的資料集,並非單憑TAIDE計畫就能完全扛下,」李育杰坦言,建置繁中資料集猶如打造公共財,需要如數位典藏的國家性計畫和經費來推動。但TAIDE計畫是個起點,透過計畫拋磚引玉、讓更多人知道建置資料集的重要性,是推動臺灣AI進展的重要一步。

 相關報導 

熱門新聞

Advertisement