台智雲在今年5月發表了福爾摩沙大模型,以可商用的開源模型BLOOM為基礎,經連續預訓練、全參數微調和人類回饋強化學習(RLHF)等三階段優化而成。(圖片來源/台智雲)

以打造臺灣杉2號超級電腦起家的華碩子公司台智雲,在今年5月和9月先後揭露多款繁中語料優化的大型語言模型(LLM),不只有懂臺灣文化的福爾摩沙系列模型(FFM),還有一系列企業級模型開發工具和無程式碼平臺,來供企業使用。

這是除了國科會可信任人工智慧對話引擎(TAIDE)外,另一個具本地知識和用語的LLM選擇。

以繁中資料優化2種開源LLM

台智雲總經理吳漢章指出,5月揭露的福爾摩沙大模型,是以可商用的開源模型BLOOM為基礎,經連續預訓練、全參數微調和人類回饋強化學習(RLHF)等三階段優化而成。

他們用來訓練模型的資料量高達1.5TB,其中包含繁中在內的46種人類語言、13種程式語言等無版權資料,共2千億個Token。他們也針對微調,建置專用的問答組,來強化模型執行特定任務的能力。

經過3個月開發,福爾摩沙模型共有2個版本,也就是1,760億參數版本和70億參數版本。台智雲技術長陳忠誠指出,福爾摩沙模型具備多語言、寫程式和推理能力,在語言部分,不只繁體中文表現優異,可準確回答不少ChatGPT難以答對的問題,還特別加強東南亞語系的語言能力,為未來南向發展做準備。

今年9月,台智雲更進一步揭露新模型FFM-Llama 2,包含70億、130億和700億參數等3種版本。這款模型以Meta開源的Llama 2為基礎,用繁中資料優化而成。與原Llama 2相比,不只能用繁體中文回答問題,而非如Llama 2會以英文回答中文問題,還能在寫程式時,在程式碼中保留所需的中文。

不只如此,台智雲以這些模型為核心,進一步推出企業級大語言模型服務AFS,可細分為AFS Cloud和AFS Appliance兩款產品。前者是雲端託管服務,提供完整訓練過的模型,來讓企業以API呼叫使用,而後者則是地端部署方案,企業可下載大型模型到本地端環境部署,來執行LLM應用。在AFS的預訓練模型庫中,除了有福爾摩沙大模型和FFM-Llama 2模型,還有BLOOMZ、Llama 2、Code Llama等開源模型。

平行化運算是訓練LLM關鍵

打造企業級LLM服務並不容易,台智雲如何能這麼快推出產品?關鍵是算力的準備。

訓練和微調LLM需要大量算力,特別是千億參數的龐大模型BLOOM,更需要一套有效的運算方法。早在2022年下半年,台智雲就開始研究訓練LLM所需的平行運算技術;他們的初始目標是,在臺灣杉2號上,實際用3種平行化方法來訓練BLOOM。

這3種平行化方法,包括將模型水平切割的工作流程平行化(Pipeline Parallelism)

、將模型垂直切割的張量平行化(Tensor Parallelism)

,以及使用前述兩種平行化後,再將訓練資料分割給不同GPU群運算的資料平行化(Data Parallelism)

為實作這3種平行化,他們首先修改模型訓練程式碼,來讓模型訓練時,可執行相對應的平行化,比如能使用不同的GPU資源。接著,他們解決一系列挑戰,比如找到最佳切割組合、讓每張GPU都能發揮最佳效能,以及分割時,解決GPU記憶體不夠用的問題。

陳忠誠還點出,LLM訓練需要好幾個月,團隊不只要實現同時調度大量GPU,比如訓練福爾摩沙大模型,最高調度840片GPU來進行平行化運算,還要注意硬體故障問題,以防止訓練流程中斷。因此,台智雲設計一套機制,能在硬體故障問題修復後,自動開始LLM訓練流程。最終,他們成功在臺灣杉2號上,最高調度840片GPU、同時進行平行化運算來訓練BLOOM。這個成功經驗,也用於FFM-Llama 2的訓練上。

不只是算力,台智雲還有不同方法,來解決LLM訓練問題。比如,為確保訓練資料品質,他們還自建一套自動辨識工具,來篩選訓練資料,比如判斷是否夾雜不預期的語言,是否含不適當內容以及低品質的資料等。

同時,為避免模型發生災難性遺忘,忘記先前學習過的知識,台智雲也特別分配訓練資料集,比如每一批平均涵蓋不同領域的資料、新舊混合等,來讓模型均衡學習。這些方法綜合起來,就打造出具備繁中知識、表現良好的福爾摩沙大模型和FFM-Llama 2。

台智雲也將訓練LLM累積的平行化經驗,發展成容易自助操作的LLM訓練服務。吳漢章表示,他們將平行化技術打包成無程式碼平臺,使用者點擊滑鼠,選擇各種想要微調的模型需求和條件,比如用1,200萬字在1小時內完成Llama 2模型微調的組合條件,系統會自動根據這些條件,來調度相應GPU支援,自動進行平行化的模型訓練任務,來降低企業訓練LLM的門檻。他也揭露台智雲下一步,不只要添加更多模型到AFS,還要往亞洲市場進一步推廣算力服務。

 相關報導 

熱門新聞

Advertisement