【臺灣中文知識庫實例：中研院中文詞知識庫小組】4年將建百萬詞規模，中研院要打造本土語音應用最大軍火庫

中研院廣義知網可以清楚地呈現出每個中文詞的知識圖譜。

若在Google搜尋網頁，輸入「歐巴馬的身高多少」，不會跳出一篇文章或是一串連結，而是Google會直接告訴你，答案就是1.85公尺。這個讓搜尋引擎搖身變成知識解答者的關鍵，就是2012年亮相的Google知識圖譜（Google Knowledge Graph）。一個記錄了大量詞彙、物件，以及它們彼此間關連性的結構化資料集，這正是讓搜尋引擎更主動提供答案，看起來更聰明的關鍵。可是Google把這套知識圖譜視為他們自己的秘密武器，只用於自家產品，而沒有釋出給第三方。

但是在臺灣，中央研究院早從30年前就成立了一個跨所合作的中文計算語言研究小組，稱為中文詞知識庫小組（簡稱詞庫小組），要來打造一套臺灣的中文自然語言處理技術。2003年時，更展開了一項龐大計畫，要建立一套中文知識圖譜，稱為廣義知網（E-HowNet)），在2011年正式上線，比Google知識圖譜還早了一年現身。

中央研究院資訊科學研究所助研究員馬偉雲是詞庫小組計畫負責人，率領了10人團隊，來打造這個已有9萬多個詞條，中文世界少見的知識圖譜資料庫，目前已經發展到了2.0版。

馬偉雲指出，中文自然語言理解可分為幾個層次，第一步是斷詞，接著是語法理解、語意理解，最後是要達到對背景知識的理解。其中，背景知識又可以分成兩種，包括了詞彙知識以及世界的背景知識。「因為人們對一個詞彙有共同的知識，所我們才能溝通。」

同樣的道理，對各種與語言相關的AI應用而言，「AI需要有知識，才能夠進行推論，甚至能夠解釋，這套廣義知網正是為了這樣的目的而設。」他說。在廣義知網中，採用了知識概念圖來描述一個詞與相關物之間的關係，而彼此連結的關係線也具有屬性的概念。

例如，查詢「學生」的知識圖譜，會列出與「學生」相關的概念，以及不同屬性上的意義，像是「學生」的定義屬性是「人」，動作屬性是「學習」，領域屬性是「教育」。學生與其他詞之間的關連也會並列列出，例如「留學生」和「學生」兩個詞，會視為是同樣的概念，只是場所屬性不一樣，「留學生」就是場所屬性是「國外」的「學生」。一個詞彙，往往會有數百，甚至是上千筆相關說明，可以清楚地呈現出對一個詞彙相關的屬性和概念意義。簡單來說，就像把人們對「學生」這的詞的所有常識知識，都一目了然地記錄在知識圖譜上。

過去，學界開發語料庫時，常找來語言學家、專家來標記這些語料或詞彙，透過專家們人工的判斷，來建立這套描述詞彙彼此間關係的資料庫，就是所謂的知識圖譜。中研院詞庫小組從2003年至今，投入大量專業人力，來建立這套標記系統和機制，也人工標記出9萬多個中文詞彙各自的知識圖譜，而且還每年持續更新內容，或修正這些詞彙所用的知識圖譜架構，還提供一套知識圖譜API，可以透過程式自動套用廣義知網的內容和架構，成為了一個可用來理解各種中文內容所需的知識庫。

例如在詞庫小組網站上，就展示了一套中研院自製的輿情分析系統，輸入想要搜尋的關鍵詞，例如柯文哲，輿情分析系統會先彙整目標媒體中特定期間內所有的柯文哲報導，再進行中文語言理解分析，運用廣義知識圖譜提供的詞彙關連知識，可以判斷出這些文章每篇文中具有的情感分布，可列出哪些報導帶有喜悅、羨慕、感激或惋惜、懊悔、失望、不滿等更細緻的不同情緒。

金融、電商等多家臺灣企業開始採用

中研院近兩年開始對外釋出這套廣義知網，不只學術可用，也可供企業申請授權來轉移技術，企業還能自行添加各自專業領域的知識詞彙，例如自建的財金詞彙等，來擴充廣義知網對特定領域的知識。去年已有5家臺灣企業開始採用，如壽險業者、銀行、網路電商、消費電子產品商、網路內容業者等。

不過，中研院的目標不只如此，馬偉雲已經提出了新的發展計畫，要用4年時間，來擴大廣義知網的詞彙規模，「盡可能累積所有詞，甚至包括專有名詞，來打造一個中文知識庫。」他計畫利用現有9萬詞彙所建立的知識圖譜架構，發展相關的自然語言處理工具，來將中文維基百科上的百萬詞彙，一一自動建立其知識圖譜，「廣義知網未來就可以成為一個具有百萬中文詞庫的知識庫。」如此一來，這個百萬詞知識庫，不只可來強化Chatbot對中文語意理解的能力，或像是中文或華語教學等，也可成為中文語料庫，用於各種文本分析上，成了中文語音應用最大的軍火庫。

熱門新聞