微軟供Azure用戶客製化STT模型，改進語音轉文字準確度

微軟更新Azure認知服務的語音功能，透過客製化語音轉文字功能，進一步提高應用程式和產品的語音轉文字準確性。新的客製化語音模型，是以基礎模型加以訓練，用戶可以利用文字資料來訓練模型，強化特定領域字彙的辨識能力，或是透過帶有轉錄的音訊資料，提高應用程式對特定音訊條件的辨識能力。

Azure Cognitive Services for Speech讓用戶可以簡單地建構語音應用程式，該服務支援多達140種語言，使用戶能高精確度地將語音轉錄成文字，或是將文字轉成自然的語音，甚至進行翻譯。而新的客製化語音功能，可供用戶客製化語音轉文字引擎，根據應用程式的常用詞彙，客製化語音模型，並且自訂聲音模型適應用戶的說話風格。

用戶只要上傳自定義語音文字或是音訊資料，就能夠簡單創建客製化模型，這些模型會與微軟的語音模型結合後，部署到客製化語音轉文字端點，使終端用戶從各種裝置上存取。

微軟提供用戶以四種方式客製化語音模型，第一種是最簡單的方式，用戶能以詞彙列表添加諸如參與者姓名、產品和行話列表，提高模型對這些詞彙的辨識能力，這是一種不需要模型訓練，就能即時強化準確度的方式。

第二種方法則是使用純文字，微軟提到，這也是簡單的客製化語音模型的方式，因為像是在各種體育賽事使用的詞彙差距很大，因此透過純文字就可針對特定運動建構客製化模型，提高賽事詞彙精確度。

第三種是以結構化文字的形式，適用於強化語音中句子模式的文字資料，針對特定單詞或是短語有所不同的話語。同時，用戶也可以使用音訊資料，訓練客製化語音模型，這將能改善模型對於特定口音、說話風格或是背景噪音的辨識能力。

熱門新聞