微軟一口氣推出25種認知服務工具,並釋出客製化語音辨識服務公開預覽版

微軟推出了25種認知服務(Cognitive Services)工具,提供開發者能利用這些認知服務工具來增加如情感和情緒檢測、視覺和語音辨識、語言理解等功能至他們開發的應用程式。根據微軟,這25種認知服務工具中,客製化語音服務(Custom Speech Service)在本周二(2/7)釋出公開預覽版,而內容管理器(Content Moderator)和Bing語音API(Bing Speech API)則將在3月釋出正式版(GA)。

客製化語音服務的前身為具備Cortana聽寫能力(Speech-to-Text)的客製化工具CRIS(Custom Recognition Intelligence Service),允許開發者能利用微軟的語音轉文字引擎(Speech-to-Text Engine),來訓練語音辨識系統在特定的環境或特定使用族群進行更準確的語音辨識,例如,開發者可以開發適合嘈雜工作環境的語音辨識應用,或是提供非母語人士或說話有障礙的使用者相關的語音辨識影用。

除此之外,客製化語音服務還能訓練語音辨識系統不同的專門術語、方言和特定的口音等,目前此服務支援英文和中文。

另外,即將在3月釋出正式版的內容管理器則允許使用者隔離和預覽資料,如圖像、文字或影像等,來過濾出不要的素材,例如,可能令人反感的言語或圖片。而Bing語音API則提供開發者能轉換語音為文字,也能將文字轉換回語音。


更多 iThome相關內容

Advertisement