微軟釋出語音、影片辨識API及測試版客製化聽寫開發工具

微軟釋出語音及影片辨識API公開測試版，另外，以限定預覽版形式釋出具備Cortana聽寫（speech-to-text）能力的客製化工具CRIS（Custom Recognition Intelligence Service）給開發人員。

三項技術都是微軟人工智慧專案Project Oxford的一環。微軟指出，影片API讓開發人員利用微軟影片處理演算法來分析及自動化影片編輯，它可偵測及追蹤影片中的臉孔、或是影片中靜態背景下的動作，還能確保影片播放的流暢及穩定性。

語音辨識API的用途則是在現有驗證工具之外，以使用者聲音提供多一層安全驗證。語音辨識API也可用在客服上，可由系統自動撥話給客戶執行問答驗證身份，過程中無需客服專員。

↓語音辨識先讓使用者建立個人的聲紋特徵資料，比對陌生的第三者語音，確保使用者的身份安全。（圖片來源：微軟）

CRIS可將微軟語音辨識引擎，針對特定語言字彙、特定環境或特定使用族群客製化開發，並整合於其應用程式中。微軟舉例，企業開發人員可用它來開發適合嘈雜的工作現場或大賣場的語音辨識應用，或是提供給非母語人士或講話有障礙的使用者。

有興趣的使用者可以在 Project Oxford 下載影片及語音辨識API。目前CRIS僅釋出限定測試版，但開發人員可以申請加入測試。

上個月，微軟也釋出Project Oxford的影片人物臉部追蹤及情緒辨識API。

熱門新聞