中研院中文詞知識庫小組計畫主持人馬偉雲(攝影/洪政偉)

在自然語言處理機制上,如何衡量機器人理解一句話時,通常是透過符號化的方式,來理解這句話的意思,也就是以自動化方式,對於這個句子進行標記後,看能不能跟以前標過的相似句子產生同樣的語法、語義分析,還有背景知識結構的標記結果,如果一致,就可以說,機器人理解了這句話。

有別英文語言,機器人要看懂中文其實很困難,因為中文的語法結構鬆散,以達到語意溝通目的為主,所以一句話有時可以出現複數個動詞,或是可以倒裝語序,例如「蘋果我吃了3個」,中文意思是「我吃了3個蘋果」,「蘋果」從受詞移到主詞前,聽者還是懂;另外,也會出現許多省略用法,例如「我吃飽了」就算說成「吃飽了」,省略「我」也可以,但是英文就不行,這些語言上的用法差異,造成中文比英文更難理解,在人類學習是如此,機器人當然也是。

機器人要理解中文,主要有2種作法,前者是先斷詞,對於中文語意理解先建立一套自動化標記方式,再利用這套標記判斷方法,來分析句子語法、語義結構和以前類似句子的標記是否一致;後者則是不需經過任何複雜的語法拆解、語義分析的標記,甚至也不一定要先斷詞,因為是將詞彙轉換成詞向量(Word Vector)來表達,每一個詞彙直接就是一個輸入,然後經過計算各個字詞之間的相似程度,得出這個詞所要表達的語義,也就是輸出,也是當前自然語言處理最熱門的研究,也就是類神經網路深度學習技術,通過建立深度學習自然語言處理模型,從大量中文語料學習不同詞彙所要表達的語義。不過,中研院中文詞知識庫小組計畫主持人馬偉雲表示,目前多採混合,純以深度學習方式來完成比較少見。

而先經過事前標記,再從這些標記後的中文句子語法、詞性及詞類等語義,抽取出需要理解的相關的重要特徵,再餵進自然語言理解模型訓練學習,從而理解句子所要表達的意思。尤其,對於需要從上下文脈絡理解的自然語言處理中,找出這句話所要表達的真正意圖時,馬偉雲表示,就可以透過這種方式來處理,例如多輪式對話(Multi-turn Dialogue)等。


Advertisement

更多 iThome相關內容