Google開發了一個稱為Meena的開放領域聊天機器人,這是一個擁有26億個參數的神經對話模型,能與人類就各種話題進行對話,與當前最新的聊天機器人相比,Meena的回應更合理也更具體,評估指標的分數接近人類。

目前不少聊天機器人具有高度針對性,只要用戶的使用方式不要跟設計者預期差太遠,效能就不會太糟,而為了要處理更多樣的對話主題,科學家也開發了無特定主題的聊天機器人,能跟用戶就廣泛領域進行對話,開放領域對話機器人可以用在人性化電腦互動、外國語言練習,或是用來開發具共鳴的互動式電影與遊戲角色。

但開放領域對話機器人的能力,目前仍有許多限制,Google提到,這類開放領域聊天機器人有一個嚴重的缺陷,便是其對話通常沒有意義,甚至前後說的話不一致,或是缺乏基本常識,而且經常給出與當前對話上下文無特別關係的回應,像是「不知道」這樣的回應,雖然可以用來回應任何問題,但是並沒有針對具體內容回答。

Google最新發表的Meena是一個端對端神經對話模型,可以在學習對話上下文後做出合理的回應,模型訓練的目標,便是要最小化困惑(Perplexity)程度,困惑度指標來自語言處理機器學習方法Seq2seq,與人類評估指標SSA(Sensibleness and Specificity Average)有高度相關性,困惑度可以衡量語言模型的不確定性,困惑度越低模型就越有信心產生下一個單詞。

而人類評估指標SSA,則是由Google訂定,以評估聊天機器人的品質。為了計算SSA,Google找來其他知名的開放領域聊天機器人,並以群眾外包的方式測試這些聊天機器人,測試者需要在每次對話後回答「這有意義嗎?」以及「是否具體?」兩個問題,每個模型的回應都會由測試者標記合理與具體與否,這兩個數值的平均值便是SSA。

Meena具有一個編碼器模塊和13個解碼器模塊,編碼器負責處理對話的上下文,幫助Meena理解對話的內容,而解碼器則使用編碼器處理過的資訊,產生實際的回應,Google提到,經過他們調校超參數後發現,強大的解碼器是提高對話品質的關鍵。

該模型具有26億個參數,使用341 GB文本訓練,這些文本是從公領域社交媒體對話中過濾出來的資料,與最新產生的OpenAI GPT-2模型相比,Meena的模型大小是OpenAI GPT-2的1.7倍,訓練資料量是8.5倍。

經良好訓練的Meena模型困惑度為10.2,SSA分數轉換為72%,而完整版本的Meena甚至能將SSA分數提升為79%,與人類的86%分數相差不遠。用來比較的開放領域聊天機器人,包括Mitsuku、Cleverbot、DialoGPT以及XiaoIce,其SSA分數都與Meena差距甚遠,表現較好的Mitsuku和Cleverbot,SSA分數也只有56%。

熱門新聞

Advertisement