【專家剖析】機器人要如何理解中文

中研院中文詞知識庫小組計畫主持人馬偉雲（攝影／洪政偉）

在自然語言處理機制上，如何衡量機器人理解一句話時，通常是透過符號化的方式，來理解這句話的意思，也就是以自動化方式，對於這個句子進行標記後，看能不能跟以前標過的相似句子產生同樣的語法、語義分析，還有背景知識結構的標記結果，如果一致，就可以說，機器人理解了這句話。

有別英文語言，機器人要看懂中文其實很困難，因為中文的語法結構鬆散，以達到語意溝通目的為主，所以一句話有時可以出現複數個動詞，或是可以倒裝語序，例如「蘋果我吃了3個」，中文意思是「我吃了3個蘋果」，「蘋果」從受詞移到主詞前，聽者還是懂；另外，也會出現許多省略用法，例如「我吃飽了」就算說成「吃飽了」，省略「我」也可以，但是英文就不行，這些語言上的用法差異，造成中文比英文更難理解，在人類學習是如此，機器人當然也是。

機器人要理解中文，主要有2種作法，前者是先斷詞，對於中文語意理解先建立一套自動化標記方式，再利用這套標記判斷方法，來分析句子語法、語義結構和以前類似句子的標記是否一致；後者則是不需經過任何複雜的語法拆解、語義分析的標記，甚至也不一定要先斷詞，因為是將詞彙轉換成詞向量（Word Vector）來表達，每一個詞彙直接就是一個輸入，然後經過計算各個字詞之間的相似程度，得出這個詞所要表達的語義，也就是輸出，也是當前自然語言處理最熱門的研究，也就是類神經網路深度學習技術，通過建立深度學習自然語言處理模型，從大量中文語料學習不同詞彙所要表達的語義。不過，中研院中文詞知識庫小組計畫主持人馬偉雲表示，目前多採混合，純以深度學習方式來完成比較少見。

而先經過事前標記，再從這些標記後的中文句子語法、詞性及詞類等語義，抽取出需要理解的相關的重要特徵，再餵進自然語言理解模型訓練學習，從而理解句子所要表達的意思。尤其，對於需要從上下文脈絡理解的自然語言處理中，找出這句話所要表達的真正意圖時，馬偉雲表示，就可以透過這種方式來處理，例如多輪式對話（Multi-turn Dialogue）等。

熱門新聞