臉書開發了一個經預訓練的模型TaBERT,可以理解自然語言的句子,並且從表格查詢結果,以回答自然語言句子的提問,TaBERT能夠回答像是「哪個國家的GDP最高?」這類的問題。研究人員提到,TaBERT是第一個跨結構化與非結構化資料的預訓練方法,克服了查詢對應到資料庫表格結構的挑戰。

自然語言處理的改進,無論是網路搜尋還是人工智慧助理的查詢,都能擁有更好的人機互動體驗,而大規模預訓練語言模型,在近期機器理解自然語言文字,扮演了重要的角色。TaBERT則是運用了預訓練技術,連結自然語言理解和結構化資料查詢,研究人員提到,TaBERT可以讓數位助理更精確地回應「下午的氣溫幾度?」和「太平洋西北地區有多少人口?」等問題,因為TaBERT可從各種資料庫或是表格中找到答案。

臉書使用了2,600萬張表格和關聯的英文句子來訓練TaBERT,研究人員表示,先前的預訓練語言模型,都僅使用自由格式的自然語言文字訓練模型,而這讓模型僅能夠處理自然語言格式的任務,但並無法處理同時需要對自然語言和資料庫進行推理的問題。

臉書以兩個常用的基準資料集進行實驗,分別是用於監督式文字轉SQL任務的Spider資料集,以及弱監督式解析任務的WikiTableQuestions資料集,臉書提到,弱監督式學習會比監督式學習更具挑戰性,因為解析器無法取得標籤查詢,而且必須要探索非常大的查詢搜尋空間。實驗結果顯示,無論是弱監督式或是監督式任務,TaBERT的結果都更好,而且也證明使用表格和語言資料進行預訓練,是可行且有效的方法。

TaBERT是以語言處理模型BERT作為基礎,研究人員把自然語言查詢以及表格作為輸入,讓TaBERT學習句子以及資料庫的上下文表示,而該表示也可以用在其他神經網路下游,以產生資料庫命令,並且能以任務相關的訓練資料,來微調TaBERT表示。

研究人員提到,TaBERT可以被應用在事實查核和驗證應用程式中,因為第三方事實查核單位,通常也是仰賴已經存在的靜態知識庫資料,而TaBERT可以將查詢對應到相關資料庫中,因此不只能夠驗證事實,也能參照相關資料庫給出解釋。


Advertisement

更多 iThome相關內容