Google釋出兩神經語言對話資料集

Google釋出Coached Conversational Preference Elicitation（CCPE）和Taskmaster-1兩個可用於訓練數位助理對話能力的資料集，其中CCPE能幫助人工智慧學習人類表達偏好的方法，而Taskmaster-1則能增加訓練語料庫的大小以及對話者的多樣性。

雖然近年來數位助理的對話能力，比起過去已經有長足的進步，但是仍然未達到與人類相同的理解程度，Google提到，這是因為缺乏能夠反應人類表達需求和偏好的訓練資料。數位助理的學習限制，來自於人類希望數位助理理解人類表達的方式，人類雕琢了訓練數位助理模型的字句，而造成了人工智慧的學習偏差。

為了解決這個問題，Google發布了CCPE以及Taskmaster-1兩個對話資料集，裡面的對話皆採用名為綠野仙蹤（Wizard of Oz）的方法，該方法配對兩個參與對話的人，其中一人扮演語音助理使用者，另一位則扮演理想的數位助理，整個設計模仿今日人類與數位語音助理對話過程，並能在自動化系統環境中，保留口語對話的特徵。

Google表示，由於人類扮演的數位助理，能夠精確理解用戶的要求，因此Google同時也能捕捉用戶，真實呈現自己想法與偏好的表達方式，而Google便捕捉這些對話，製作成CCPE以及Taskmaster-1兩個對話資料集。

CCPE資料集包含12,000個註釋範例語句的502個對話，由一人扮演使用者對麥克風講話，而音訊直接向扮演數位助理的人工助理播放，並由人工助理以文字輸入回應，回應以文字轉語音技術轉成音訊後播放給使用者聽，模擬使用者與數位助理對話的真實情況。

CCPE資料集中對話的內容在談論電影偏好，Google提到，真實人類的對話，包含了合成對話難以重現的不流暢和錯誤等自然情況，另外，這個資料集還呈現了許多人類描述偏好的方法，而且Google也發現，由系統所提供的電影喜好過濾器，可能不適合使用者用來描述喜好的語言。CCPE資料集是第一個大規模呈現喜好描述豐富度的資料集。

Taskmaster-1則是任務面向的資料集，Taskmaster-1裡的對話除了採用綠野仙蹤方法之外，也使用書寫完整對話的方法，來增加語料庫大小以及談話者的多樣性。書寫方法是由一個人同時扮演用戶以及人工助理，依照任務概述獨自創建完整的對話，Google提到，雖然口語對話會更接近對話語言，但是書寫的對話複雜豐富，而且更便宜且易於收集。

Taskmaster-1包含了訂購披薩、建立汽車維修預約、設置租車、訂購電影票、訂購咖啡以及預約餐廳6種任務對話。這個資料集使用簡單注釋架構，建立資料的人員可以簡單地為資料加上標籤。

熱門新聞