繼前陣子找來前Google AI大將John Giannandrea改善Siri後,蘋果近日於蘋果的機器學習期刊中,發布用機器學習技術來加強Hey Siri語音命令的辨識,因為Hey Siri的指令較簡潔,因此有時會辨識不正確,舉例來說,在使用者說到類似的詞句時,或是非本人說該指令時,都有可能意外地喚醒Siri,為了解決這個問題,蘋果將透過機器學習來改善。

蘋果過去在iOS 8的iPhone 6首次推出Hey Siri的功能,使用者不需要按Home鍵,能透過說:「Hey Siri」將Siri喚醒,系統聽到Hey Siri的指令後,將會處理後面使用者所說的話,給予使用者回覆。用語音指令喚醒Siri的功,能給使用者帶來方便,讓使用者在沒有手按手機按鍵的情況下,還是可以與語音助理互動,像是煮飯或是開車的時候。

不過,Hey Siri的語音指令現在的辨識還不夠精準,對主要使用者人聲的辨識也不夠精準,目前會發生三種辨識錯誤的情形,包含使用者講到類似的語音指令和他人講Hey Siri都可能不小心喚醒Siri,另外,還有使用者講了Hey Siri卻無法喚醒Siri的情況。

辨識Hey Siri的問題出在過去是採用偵測關鍵詞的方法,因此系統接收到類似Hey Siri的指令時,容易意外喚醒Siri,蘋果Siri團隊透度學習來建立偵測模型,並加入遞歸神經網路來訓練模型,讓模型可以更準確地辨認用戶本人的指令,根據蘋果的研究實驗結果,透過機器學習技術改善Hey Siri的辨識模型後,可以減少75%因為其他人意外喚醒Siri的情況,而因爲類似語音指令喚醒Siri的情況可減少50%。

目前Siri在最一開始設定時,需要使用者說5次Hey Siri相關的指令,來建立個人化聲音辨識模型,在之後辨識的階段,就是將使用者的語句與預先建立的模型比對,來決定是否要喚起Siri。不過,蘋果表示,在使用者設定Hey Siri的階段中,常常會因爲環境變數,而造成建立模型的誤差,像是使用者在吵雜的環境中設定。

因此,蘋果喚醒Siri的模型,除了將使用者的聲紋與預先建立的模型比對之外,還會保留40次使用者最新能喚起Hey Siri的聲紋記錄,未來,蘋果希望可以跳過使用者註冊Siri這一段,直接透過使用者喚醒Siri的記錄,就能正確地辨認語音指令。


Advertisement

更多 iThome相關內容