越來越難但非走不可的臺灣AI路

在2006年時，我曾寫過一款免費的工具軟體「豆子謄稿機」，來幫忙整理大量訪談錄音的逐字稿。

當年只能做到在同一個視窗中，一邊用鍵盤快速鍵控制聲音播放，一邊輸入文字，就能大幅將數十小時的謄打時間，縮短一半以上時間，幫了很大的忙。

當時很希望，有一天可以完全不用「人工」，單靠軟體就能辨識出所有錄音內容。這個小小的願望，過了17年，終於有可能會實現。

今年3月，當OpenAI釋出了語音轉文字Whisper模型時，我立刻下載到筆電上部署，開始試用了起來。非常驚艷！Whisper幾乎可以辨識出超過9成的中文內容，遠勝時下許多語音辨識軟體，只需再人工進行一些修正就好，已經大大節省了不少手動作業時間。

後來OpenAI推出了v2版，提供了參數更多的超大模型版本，又讓辨識率提高了一些，逼近9成5。到了11月，OpenAI三度改版Whisper，我滿心期待，第一時間就下載來。

v3新版Whisper模型的辨識率，的確又更高了一些，辨識速度也有改善，連一些受訪者碎嘴的呢喃，都能清楚的分辨出來，可是，我卻覺得更難用、得更花時間人工處理了。

為什麼？因為同一個錄音檔，用了同樣的Whisper指令和參數，只是從v2換成了v3版模型，辨識出來的文字，大半都是簡體中文，就算強制指定了繁中語系，辨識出來的文字，還是參雜了大半的簡中文字，我得額外再花不少時間一一修正。

怎麼會這樣？這個問題困擾了我好一陣子後，我才意識到，雖然v3版模型的參數量更大，可是用來訓練模型的繁中語料不見得變得更多，說不定，新版模型簡中訓練資料的比重更高，進而影響了語音辨識內容。

雖然，我無法證實這個推測，嘗試過的錄音檔也不夠多，也可能只是我手上錄音內容特別冷門，才導致了這個偏誤結果。但是在這種開源大型語言模型中，繁中訓練語料的數量，的確遠遠比不上簡體中文，相對於英文資料更是少得可憐。

例如開源模型BLOOM的簡中訓練資料占了16.2%，但是繁中資料只占0.05%，兩者差了300倍之多。不同語言資料量的落差，明顯影響了大型語言模型對不同語言的生成能力。這正是日前中研院明清研究用LLM，被誤用於通用型問答時，所遇到的問題，嚴重答非所問，甚至偏向於簡中資料的答案內容。

單靠那些繁中語料占比稀少的開源LLM模型，很難得到品質夠好的繁中答案。這正是必須要有一個繁中LLM模型的理由，下一個問題是誰來做？臺灣自己要用的LLM模型，當然得自己做，不會有人幫你做到好。

過去一年來，ChatGPT帶起全球生成式AI的浪潮，臺灣產學界也意識到繁中LLM的必要性而展開行動，今年陸續看到一些成果。

例如聯發科的BLOOM-zh、台智雲的福爾摩沙基礎模型和FFM-Llama 2、臺大陳縕儂師生團隊的Taiwan-LLM等模型較為人所知，政府也出資超過2億元推動國科會TAIDE計畫，來打造臺版LLM，目前已經完成了LLaMA 70億參數預訓練的繁中版模型，正在優化以Llama 2為基礎發展的130億參數版本Taide-LLaMA2-13B-Chat，預計明年初釋出，這是一個可供學術用與商用的繁中模型。

但是，LLM的競賽是一場馬拉松，現在才剛起步，各國、各大企業紛紛發展千億，甚至數千億量級參數的超大LLM模型。臺灣想要跟上，得面臨不少挑戰。

繁中訓練資料嚴重不足是第一個挑戰，一般標準預訓練需要的資料量，大約是參數量的20倍，千億參數模型就需要2兆個Token的資料量才夠用。

不只資料，算力和算法是另一個難題，國網中心正加緊腳步擴充算力，明年希望再增加16 PFLOPS算力，來因應700億參數模型的訓練需求。但是模型越大，需要的平行化運算也更複雜，才能有效縮短訓練時間。這一類人才是臺灣稀缺的高階研發人才。

明年若一切順利，TAIDE希望趕在4月計畫結束前，完成並釋出700億參數的模型。至於計畫結束後如何繼續發展，政府目前仍無進一步的規畫，也沒有明確的長期營運策略。

這場生成式AI的馬拉松競賽，沒有人知道終點還有多遠，只知道模型規模越來越大、訓練難度和所需資源越來越多。

大國、大廠帶頭的領先群，越跑越快，遙遙拉開距離，臺灣也得奮力跟上。因為這是一條越來越難，但非走不可的AI路。

相關報導

越來越難但非走不可的臺灣AI路

專欄作者

熱門新聞