臉書開發新模型TaBERT可理解自然語言並從表格查資料

臉書開發了一個經預訓練的模型TaBERT，可以理解自然語言的句子，並且從表格查詢結果，以回答自然語言句子的提問，TaBERT能夠回答像是「哪個國家的GDP最高？」這類的問題。研究人員提到，TaBERT是第一個跨結構化與非結構化資料的預訓練方法，克服了查詢對應到資料庫表格結構的挑戰。

自然語言處理的改進，無論是網路搜尋還是人工智慧助理的查詢，都能擁有更好的人機互動體驗，而大規模預訓練語言模型，在近期機器理解自然語言文字，扮演了重要的角色。TaBERT則是運用了預訓練技術，連結自然語言理解和結構化資料查詢，研究人員提到，TaBERT可以讓數位助理更精確地回應「下午的氣溫幾度？」和「太平洋西北地區有多少人口？」等問題，因為TaBERT可從各種資料庫或是表格中找到答案。

臉書使用了2,600萬張表格和關聯的英文句子來訓練TaBERT，研究人員表示，先前的預訓練語言模型，都僅使用自由格式的自然語言文字訓練模型，而這讓模型僅能夠處理自然語言格式的任務，但並無法處理同時需要對自然語言和資料庫進行推理的問題。

臉書以兩個常用的基準資料集進行實驗，分別是用於監督式文字轉SQL任務的Spider資料集，以及弱監督式解析任務的WikiTableQuestions資料集，臉書提到，弱監督式學習會比監督式學習更具挑戰性，因為解析器無法取得標籤查詢，而且必須要探索非常大的查詢搜尋空間。實驗結果顯示，無論是弱監督式或是監督式任務，TaBERT的結果都更好，而且也證明使用表格和語言資料進行預訓練，是可行且有效的方法。

TaBERT是以語言處理模型BERT作為基礎，研究人員把自然語言查詢以及表格作為輸入，讓TaBERT學習句子以及資料庫的上下文表示，而該表示也可以用在其他神經網路下游，以產生資料庫命令，並且能以任務相關的訓練資料，來微調TaBERT表示。

研究人員提到，TaBERT可以被應用在事實查核和驗證應用程式中，因為第三方事實查核單位，通常也是仰賴已經存在的靜態知識庫資料，而TaBERT可以將查詢對應到相關資料庫中，因此不只能夠驗證事實，也能參照相關資料庫給出解釋。

熱門新聞