Google發表目前最先進的開放領域聊天機器人Meena

Google開發了一個稱為Meena的開放領域聊天機器人，這是一個擁有26億個參數的神經對話模型，能與人類就各種話題進行對話，與當前最新的聊天機器人相比，Meena的回應更合理也更具體，評估指標的分數接近人類。

目前不少聊天機器人具有高度針對性，只要用戶的使用方式不要跟設計者預期差太遠，效能就不會太糟，而為了要處理更多樣的對話主題，科學家也開發了無特定主題的聊天機器人，能跟用戶就廣泛領域進行對話，開放領域對話機器人可以用在人性化電腦互動、外國語言練習，或是用來開發具共鳴的互動式電影與遊戲角色。

但開放領域對話機器人的能力，目前仍有許多限制，Google提到，這類開放領域聊天機器人有一個嚴重的缺陷，便是其對話通常沒有意義，甚至前後說的話不一致，或是缺乏基本常識，而且經常給出與當前對話上下文無特別關係的回應，像是「不知道」這樣的回應，雖然可以用來回應任何問題，但是並沒有針對具體內容回答。

Google最新發表的Meena是一個端對端神經對話模型，可以在學習對話上下文後做出合理的回應，模型訓練的目標，便是要最小化困惑（Perplexity）程度，困惑度指標來自語言處理機器學習方法Seq2seq，與人類評估指標SSA（Sensibleness and Specificity Average）有高度相關性，困惑度可以衡量語言模型的不確定性，困惑度越低模型就越有信心產生下一個單詞。

而人類評估指標SSA，則是由Google訂定，以評估聊天機器人的品質。為了計算SSA，Google找來其他知名的開放領域聊天機器人，並以群眾外包的方式測試這些聊天機器人，測試者需要在每次對話後回答「這有意義嗎？」以及「是否具體？」兩個問題，每個模型的回應都會由測試者標記合理與具體與否，這兩個數值的平均值便是SSA。

Meena具有一個編碼器模塊和13個解碼器模塊，編碼器負責處理對話的上下文，幫助Meena理解對話的內容，而解碼器則使用編碼器處理過的資訊，產生實際的回應，Google提到，經過他們調校超參數後發現，強大的解碼器是提高對話品質的關鍵。

該模型具有26億個參數，使用341 GB文本訓練，這些文本是從公領域社交媒體對話中過濾出來的資料，與最新產生的OpenAI GPT-2模型相比，Meena的模型大小是OpenAI GPT-2的1.7倍，訓練資料量是8.5倍。

經良好訓練的Meena模型困惑度為10.2，SSA分數轉換為72％，而完整版本的Meena甚至能將SSA分數提升為79％，與人類的86％分數相差不遠。用來比較的開放領域聊天機器人，包括Mitsuku、Cleverbot、DialoGPT以及XiaoIce，其SSA分數都與Meena差距甚遠，表現較好的Mitsuku和Cleverbot，SSA分數也只有56％。

熱門新聞