【臺灣AI語音引擎實例：臺灣AI實驗室】語音辨識不輸國外，雅婷App連鄉民用語都能懂

臺灣AI實驗室創辦人杜奕瑾表示，語音辨識技術深受在地化需求的影響，需要用在地語料打造出來的語音辨識引擎，才能真正打造符合臺灣在地需求、貼近在地民眾的說話用語，或使用習慣。（攝影／洪政偉）

圖片來源:

臺灣AI實驗室,杜奕瑾,

為何同樣是中文語音辨識，臺灣AI實驗室推出的中文語音轉文字App，和用國外做出來的就是很不一樣，有著濃濃的臺味，許多臺灣人用了以後，都對它讚不絕口，而且去年底一推出，就引發熱烈迴響，不到一周就衝上Android平臺生產力類第一名，成為最受歡迎App，甚至比Google Drive、Gmail下載的用戶都還多，不但記者拿它記錄，聽障人士聽廣播、看電視也都用它。

臺灣AI實驗室去年底推出一款逐字稿App，靠著使用臺灣在地語料，學習民眾常見的用詞、習慣用語，一推出就大受好評，現在不只能辨識在地的PTT鄉民用語，甚至再過幾個月，中英夾雜說話方式也難不倒它。

語音辨識要貼近在地需求，在地化資料是關鍵

臺灣AI實驗室創辦人杜奕瑾點出關鍵，就在於他們開發的中文語音辨識引擎，用的是土生土長的臺灣在地化語料，蒐羅了包含臺灣新聞、電視節目、批踢踢（PTT）文章等語音和文字資料，讓AI可以經由學習，知道臺灣民眾常見的用詞、習慣用語，或說話方式等，就連幫App取名稱也很在地，就叫「雅婷」。現在不只能辨識「踹共」、「母湯」這些鄉民用語，甚至再過幾個月，中英夾雜說話方式也難不倒它。

「語音辨識技術深受在地化需求的影響。」杜奕瑾說明，即使英文的語音辨識很強，不見得在中文辨識就會比較厲害，因為需要用在地語料，才能開發出符合當地需求、貼近在地民眾的使用習慣、說話用語的語音應用，就連現在許多常見詞彙，比如PTT鄉民用語，實際拿國外語音辨識引擎來試，很多都不及格，正反映了它很需要在地化資料。

如今，臺灣在中文語音辨識準確率上，跟國外相比毫不遜色，甚至有的辨識效果比國外還準確。根據臺灣AI實驗室用華語文能力測驗來做測試，語音判斷的結果已經比中國科大訊飛和Google都好，中文字錯字率（word error rate）已經達到5 ～6%，科大訊飛的錯字率則有15～16%，兩者相差多達10%。對照國外產業Switchboard語音辨識基準測試的字錯率，錯字率低於6%，等同於人類專業速記員水準，雖然兩者比較的基礎不同，但也反映出，臺灣在中文語音辨識技術上的重要突破。

要用軟體創造取代傳統代工思維

不過，杜奕瑾也直言，幾年前剛回臺決定要發展臺灣在地化AI技術時，很多人都不看好，甚至也有科技界大老看衰，不相信臺灣有能力會做得好，「我覺得這是沒必要的悲觀」，其實臺灣的軟體開發能力是不輸全世界，重點是有沒有想要好好地在臺灣發展軟體產業。

他也指出，臺灣想要發展在地化的中文AI語音引擎，最大挑戰是要改變思維，應以軟體創造思維，來取代一味模仿或壓低製造成本的傳統代工思維，才能在新技術出現時，很快從自身周圍問題找到潛在應用，把它做到最好。

「這就是我們要推雅婷這個App的原因。」杜奕瑾說真正目的，是要向全世界證明，臺灣不只有能力自己做，而且更要在最短時間完成，然後開放讓所有人都能使用。當這些人在使用的同時，也就在厚植臺灣在地AI軟體實力，同時吸引更多臺灣一流軟體人才回流，共同一起幫臺灣在地AI語音引擎做到更好。

熱門新聞