在2006年時,我曾寫過一款免費的工具軟體「豆子謄稿機」,來幫忙整理大量訪談錄音的逐字稿。
當年只能做到在同一個視窗中,一邊用鍵盤快速鍵控制聲音播放,一邊輸入文字,就能大幅將數十小時的謄打時間,縮短一半以上時間,幫了很大的忙。
當時很希望,有一天可以完全不用「人工」,單靠軟體就能辨識出所有錄音內容。這個小小的願望,過了17年,終於有可能會實現。
今年3月,當OpenAI釋出了語音轉文字Whisper模型時,我立刻下載到筆電上部署,開始試用了起來。非常驚艷!Whisper幾乎可以辨識出超過9成的中文內容,遠勝時下許多語音辨識軟體,只需再人工進行一些修正就好,已經大大節省了不少手動作業時間。
後來OpenAI推出了v2版,提供了參數更多的超大模型版本,又讓辨識率提高了一些,逼近9成5。到了11月,OpenAI三度改版Whisper,我滿心期待,第一時間就下載來。
v3新版Whisper模型的辨識率,的確又更高了一些,辨識速度也有改善,連一些受訪者碎嘴的呢喃,都能清楚的分辨出來,可是,我卻覺得更難用、得更花時間人工處理了。
為什麼?因為同一個錄音檔,用了同樣的Whisper指令和參數,只是從v2換成了v3版模型,辨識出來的文字,大半都是簡體中文,就算強制指定了繁中語系,辨識出來的文字,還是參雜了大半的簡中文字,我得額外再花不少時間一一修正。
怎麼會這樣?這個問題困擾了我好一陣子後,我才意識到,雖然v3版模型的參數量更大,可是用來訓練模型的繁中語料不見得變得更多,說不定,新版模型簡中訓練資料的比重更高,進而影響了語音辨識內容。
雖然,我無法證實這個推測,嘗試過的錄音檔也不夠多,也可能只是我手上錄音內容特別冷門,才導致了這個偏誤結果。但是在這種開源大型語言模型中,繁中訓練語料的數量,的確遠遠比不上簡體中文,相對於英文資料更是少得可憐。
例如開源模型BLOOM的簡中訓練資料占了16.2%,但是繁中資料只占0.05%,兩者差了300倍之多。不同語言資料量的落差,明顯影響了大型語言模型對不同語言的生成能力。這正是日前中研院明清研究用LLM,被誤用於通用型問答時,所遇到的問題,嚴重答非所問,甚至偏向於簡中資料的答案內容。
單靠那些繁中語料占比稀少的開源LLM模型,很難得到品質夠好的繁中答案。這正是必須要有一個繁中LLM模型的理由,下一個問題是誰來做?臺灣自己要用的LLM模型,當然得自己做,不會有人幫你做到好。
過去一年來,ChatGPT帶起全球生成式AI的浪潮,臺灣產學界也意識到繁中LLM的必要性而展開行動,今年陸續看到一些成果。
例如聯發科的BLOOM-zh、台智雲的福爾摩沙基礎模型和FFM-Llama 2、臺大陳縕儂師生團隊的Taiwan-LLM等模型較為人所知,政府也出資超過2億元推動國科會TAIDE計畫,來打造臺版LLM,目前已經完成了LLaMA 70億參數預訓練的繁中版模型,正在優化以Llama 2為基礎發展的130億參數版本Taide-LLaMA2-13B-Chat,預計明年初釋出,這是一個可供學術用與商用的繁中模型。
但是,LLM的競賽是一場馬拉松,現在才剛起步,各國、各大企業紛紛發展千億,甚至數千億量級參數的超大LLM模型。臺灣想要跟上,得面臨不少挑戰。
繁中訓練資料嚴重不足是第一個挑戰,一般標準預訓練需要的資料量,大約是參數量的20倍,千億參數模型就需要2兆個Token的資料量才夠用。
不只資料,算力和算法是另一個難題,國網中心正加緊腳步擴充算力,明年希望再增加16 PFLOPS算力,來因應700億參數模型的訓練需求。但是模型越大,需要的平行化運算也更複雜,才能有效縮短訓練時間。這一類人才是臺灣稀缺的高階研發人才。
明年若一切順利,TAIDE希望趕在4月計畫結束前,完成並釋出700億參數的模型。至於計畫結束後如何繼續發展,政府目前仍無進一步的規畫,也沒有明確的長期營運策略。
這場生成式AI的馬拉松競賽,沒有人知道終點還有多遠,只知道模型規模越來越大、訓練難度和所需資源越來越多。
大國、大廠帶頭的領先群,越跑越快,遙遙拉開距離,臺灣也得奮力跟上。因為這是一條越來越難,但非走不可的AI路。
專欄作者
熱門新聞
2024-12-03
2024-11-20
2024-11-15
2024-11-15