中研院廣義知網可以清楚地呈現出每個中文詞的知識圖譜。

若在Google搜尋網頁,輸入「歐巴馬的身高多少」,不會跳出一篇文章或是一串連結,而是Google會直接告訴你,答案就是1.85公尺。這個讓搜尋引擎搖身變成知識解答者的關鍵,就是2012年亮相的Google知識圖譜(Google Knowledge Graph)。一個記錄了大量詞彙、物件,以及它們彼此間關連性的結構化資料集,這正是讓搜尋引擎更主動提供答案,看起來更聰明的關鍵。可是Google把這套知識圖譜視為他們自己的秘密武器,只用於自家產品,而沒有釋出給第三方。

但是在臺灣,中央研究院早從30年前就成立了一個跨所合作的中文計算語言研究小組,稱為中文詞知識庫小組(簡稱詞庫小組),要來打造一套臺灣的中文自然語言處理技術。2003年時,更展開了一項龐大計畫,要建立一套中文知識圖譜,稱為廣義知網(E-HowNet)),在2011年正式上線,比Google知識圖譜還早了一年現身。

中央研究院資訊科學研究所助研究員馬偉雲是詞庫小組計畫負責人,率領了10人團隊,來打造這個已有9萬多個詞條,中文世界少見的知識圖譜資料庫,目前已經發展到了2.0版。

馬偉雲指出,中文自然語言理解可分為幾個層次,第一步是斷詞,接著是語法理解、語意理解,最後是要達到對背景知識的理解。其中,背景知識又可以分成兩種,包括了詞彙知識以及世界的背景知識。「因為人們對一個詞彙有共同的知識,所我們才能溝通。」

同樣的道理,對各種與語言相關的AI應用而言,「AI需要有知識,才能夠進行推論,甚至能夠解釋,這套廣義知網正是為了這樣的目的而設。」他說。在廣義知網中,採用了知識概念圖來描述一個詞與相關物之間的關係,而彼此連結的關係線也具有屬性的概念。

例如,查詢「學生」的知識圖譜,會列出與「學生」相關的概念,以及不同屬性上的意義,像是「學生」的定義屬性是「人」,動作屬性是「學習」,領域屬性是「教育」。學生與其他詞之間的關連也會並列列出,例如「留學生」和「學生」兩個詞,會視為是同樣的概念,只是場所屬性不一樣,「留學生」就是場所屬性是「國外」的「學生」。一個詞彙,往往會有數百,甚至是上千筆相關說明,可以清楚地呈現出對一個詞彙相關的屬性和概念意義。簡單來說,就像把人們對「學生」這的詞的所有常識知識,都一目了然地記錄在知識圖譜上。

過去,學界開發語料庫時,常找來語言學家、專家來標記這些語料或詞彙,透過專家們人工的判斷,來建立這套描述詞彙彼此間關係的資料庫,就是所謂的知識圖譜。中研院詞庫小組從2003年至今,投入大量專業人力,來建立這套標記系統和機制,也人工標記出9萬多個中文詞彙各自的知識圖譜,而且還每年持續更新內容,或修正這些詞彙所用的知識圖譜架構,還提供一套知識圖譜API,可以透過程式自動套用廣義知網的內容和架構,成為了一個可用來理解各種中文內容所需的知識庫。

例如在詞庫小組網站上,就展示了一套中研院自製的輿情分析系統,輸入想要搜尋的關鍵詞,例如柯文哲,輿情分析系統會先彙整目標媒體中特定期間內所有的柯文哲報導,再進行中文語言理解分析,運用廣義知識圖譜提供的詞彙關連知識,可以判斷出這些文章每篇文中具有的情感分布,可列出哪些報導帶有喜悅、羨慕、感激或惋惜、懊悔、失望、不滿等更細緻的不同情緒。

金融、電商等多家臺灣企業開始採用

中研院近兩年開始對外釋出這套廣義知網,不只學術可用,也可供企業申請授權來轉移技術,企業還能自行添加各自專業領域的知識詞彙,例如自建的財金詞彙等,來擴充廣義知網對特定領域的知識。去年已有5家臺灣企業開始採用,如壽險業者、銀行、網路電商、消費電子產品商、網路內容業者等。

不過,中研院的目標不只如此,馬偉雲已經提出了新的發展計畫,要用4年時間,來擴大廣義知網的詞彙規模,「盡可能累積所有詞,甚至包括專有名詞,來打造一個中文知識庫。」他計畫利用現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,來將中文維基百科上的百萬詞彙,一一自動建立其知識圖譜,「廣義知網未來就可以成為一個具有百萬中文詞庫的知識庫。」如此一來,這個百萬詞知識庫,不只可來強化Chatbot對中文語意理解的能力,或像是中文或華語教學等,也可成為中文語料庫,用於各種文本分析上,成了中文語音應用最大的軍火庫。


Advertisement

更多 iThome相關內容