例如中華電信研究所的「員工電話語音查號台」這項應用,使用者想要查詢某位員工的分機號碼時,只要撥通這個查號台後,對著話筒直接唸出該人的名字,系統就會依據所「聽到」的人名,從資料庫中找出五個讀音最接近的員工,以合成的語音回報給使用者。

中華電信研究所在數位語音信號處理的領域中已鑽研多年,包括語音編碼、語音合成、語音辨認等三方面的核心技術,並整合該所的多項智慧型輸出入技術,衍生出各項相關的應用服務系統。

中華電信研究所副所長鄭伯順今天(5/18)在NII資訊及通信國家標準應用研討會中,向280位與會者簡介了數位語音編碼的演算法與國際間的語音編碼標準、語音合成的技術與工作方式、語音辨識技術,及該所開發的十餘種應用服務系統-包括為方便殘障人士溝通所設計的殘障用資訊系統。

目前電話自動語音系統的應用相當普遍,有許多都已經是利用語音合成(Text-To-Speech,TTS)技術,將所提供的資訊轉成口語;因為編碼技術及語音合成技術的進步,有時幾乎讓人聽不出是合成語音。

例如中華電信研究所的「員工電話語音查號台」這項應用,使用者想要查詢某位員工的分機號碼時,只要撥通這個查號台後,對著話筒直接唸出該人的名字,系統就會依據所「聽到」的人名,從資料庫中找出五個讀音最接近的員工,以合成的語音回報給使用者。使用者選擇出正確的那一位後,再按個號碼7,系統就會自動把電話轉至該人的分機。

市面上買得到的中文連續語音輸入軟體,都需要使用者先有一段「練習」的時間,好讓系統能夠「習慣」進而辨識這個人所說的話,與內建的語音詞庫進行比對後,選擇出正確的詞彙。這樣的系統只對特定使用者有較好的辨識率。

但是像上述的語音查號台系統,卻能夠辨認非特定使用者的口音,這就有賴於諸如連續音快速候選音搜尋比對技術、高鑑別率語音模型訊練技術、快速中文大詞彙辨認技術.....等等關鍵技術的研發與整合應用了。

鄭伯順表示,電信研究所目前正在建置104語音自動查號雛型系統,目前這套系統已經可以查尋2600個大台北地區金融機構的電話號碼。查號台由於耗費大量的人力搜尋電話資料庫,是中華電信每年虧損 20幾億台幣的營業項目;未來如果能夠完全以電腦語音辨識、合成技術來做自動化的查號台,將可節省大量人力物力。

令外,像是166、167氣象服務專線,其實現在就已經在試用電腦語音合成系統了,據說每天晚上的時段就是語音合成系統在運作。而中華電信更將於近日為全台1000多萬的電話用戶,提供「網際郵件服務系統」,讓用戶拿起電話就可以「聽」自己的email(至少是 email的標題)。

鄭伯順解釋,語音合成技術是將一段文句或一篇文章透過語言及語音信號處理技術,將之轉換成自然、流利且清晰的聲音。

語音合成系統的基本架構如下:文字資料經智慧前處理(例如OCR光學辨識)後,與系統內建的詞典比對,進行文字處理,包括斷字、斷詞、換氣邊界等。然後透過音韻資料庫進行這些文字的音韻處理,包括字的字調、音長、音量、句調等;接下來系統從合成單元資料庫中選擇正確的合成單元(例如中文單字,或是「對不起」這樣三字連在一起才可正確表達出意思的詞),由合成器合成出自然的聲音。

熱門新聞

Advertisement