微軟更新Azure認知服務的語音功能,透過客製化語音轉文字功能,進一步提高應用程式和產品的語音轉文字準確性。新的客製化語音模型,是以基礎模型加以訓練,用戶可以利用文字資料來訓練模型,強化特定領域字彙的辨識能力,或是透過帶有轉錄的音訊資料,提高應用程式對特定音訊條件的辨識能力。

Azure Cognitive Services for Speech讓用戶可以簡單地建構語音應用程式,該服務支援多達140種語言,使用戶能高精確度地將語音轉錄成文字,或是將文字轉成自然的語音,甚至進行翻譯。而新的客製化語音功能,可供用戶客製化語音轉文字引擎,根據應用程式的常用詞彙,客製化語音模型,並且自訂聲音模型適應用戶的說話風格。

用戶只要上傳自定義語音文字或是音訊資料,就能夠簡單創建客製化模型,這些模型會與微軟的語音模型結合後,部署到客製化語音轉文字端點,使終端用戶從各種裝置上存取。

微軟提供用戶以四種方式客製化語音模型,第一種是最簡單的方式,用戶能以詞彙列表添加諸如參與者姓名、產品和行話列表,提高模型對這些詞彙的辨識能力,這是一種不需要模型訓練,就能即時強化準確度的方式。

第二種方法則是使用純文字,微軟提到,這也是簡單的客製化語音模型的方式,因為像是在各種體育賽事使用的詞彙差距很大,因此透過純文字就可針對特定運動建構客製化模型,提高賽事詞彙精確度。

第三種是以結構化文字的形式,適用於強化語音中句子模式的文字資料,針對特定單詞或是短語有所不同的話語。同時,用戶也可以使用音訊資料,訓練客製化語音模型,這將能改善模型對於特定口音、說話風格或是背景噪音的辨識能力。

熱門新聞

Advertisement