AWS自動語音辨識服務Transcribe推出即時語音轉文字功能

圖片來源:

AWS

AWS日前才更新了自然語言理解服務Comprehend，推出客製Entity辨識模型的功能，讓不懂機器學習的開發人員，也能訓練自家的Entity辨識模型，來自動萃取特定的字詞。該公司的自動語音辨識服務Transcribe近日也有新功能，推出即時語音轉文字Streaming Transcription，Transcribe能夠讓開發者，將語音轉文字的功能新增到自家的應用中，而最新推出的Streaming Transcription則更進一步，讓使用者上傳一段語音到服務中，就能回傳即時辨識的文字稿。

自動語音辨識服務Transcribe於去年11月AWS re:Invent大會上第一次亮相，並於今年4月與即時翻譯服務Translate一起公開發布，該服務能將語音轉換成文字，同時能夠讓開發人員將該功能加入自家的應用中，目前支援16 kHz和8 kHz語音串流，和多種語音格式，像是WAV、MP3、MP4和Flac，也能夠用來分析存放在S3的語音檔案內容，或是分析客戶的通話資料、自動建立字幕、根據內容執行目標式廣告，也能搜尋語音或影片內容，支援美式英語、英式英語、西班牙語、澳洲英語和加拿大法語。

AWS認為，即時語音轉文字的服務，對於不同的產業都很有幫助，包含客服中心、媒體、娛樂產業、金融和保險業，甚至是法庭的記錄，都能夠提供輔助，舉例來說，客服中心可以即時偵測與抄寫文字的關鍵字，根據關鍵字觸發下一個工作流程，媒體業則可以在新聞播報時，即時自動上字幕，電玩商也能透過這項功能，提供聽力受損的玩家輔助服務，而在法庭上，該功能則可以速記法庭上的對話內容，同樣地，一般的企業也可以用來記錄會議資訊。

Streaming Transcription利用了HTTP/2執行雙向流技術，來處理使用者應用端和AWS服務端之間的語音串流和文字記錄，雙向流可以讓應用端同時發送和接收數據，因此，能夠更快速地得到結果。

為了展示如何使用AWS ADK將Streaming Transcription加入自家的應用中，AWS創立了一個範例並公開在GitHub上，使用者透過麥克風或是上傳語音檔，傳輸到AWS的語音轉文字服務中，就能即時獲得文字記錄。

熱門新聞