千呼萬喚十多年！中研院終於開源釋出國產自動化中文斷詞工具，正式採用GPL 3.0釋出

中研院近日正式開源釋出了自行研發多年的自動化中文斷詞程式，並已放上GitHub平臺。

圖片來源:

GitHub

從事中文自然語言處理（NLP）研究的中研院CKIP Lab中文詞知識庫小組，近日正式開源釋出了自行研發多年的一套中文斷詞程式，提供給在臺灣從事中文NLP研究的學術圈或開發者來使用，這也意謂著，臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用，而且完全開源，目前已放上GitHub平臺上，開放給大家試用。

中文NLP研究常用到的自動化中文斷詞工具，實際上，中研院CKIP Lab中文詞知識庫小組自己也有一套國產品，但以前沒有開源，僅提供安裝執行檔，並未提供原始碼，因此，過去使用上一直不如中國開源的中文斷詞工具Jieba（結巴）好用。

不過，這次中研院決定將自己的中文斷詞工具開源釋出，並放上程式代管平臺GitHub，對於臺灣中文NLP研究者或開發者來說，無疑是一大福音。現在使用者已經可以透過該平臺來安裝使用這個斷詞工具，並可依據自己需求，來修改原始碼，增加更多新功能或特色，用於處理文本、語義分析的使用。

中研院更改了原先的CC BY-SA授權方式，改以更具開源精神的GPL 3.0授權釋出，不論是學術研究或其他商業用途，任何人已經皆可自由使用，但必須合乎GPL-3.0的授權規範，倘若希望採用非提供衍生源碼的傳統商業模式，則可採傳統的商業授權。

雖然，中研院開源了自家的中文斷詞程式，不過一開始誤用了較不易散播的創用CC BY-NC-SA 4.0（也就是姓名標示、非商用、相同方式分享）方式授權，引起社群熱烈討論，隨後，中研院在今晚（5日）有重新調整更適合的授權，改採用正式GPL-3.0（GNU General Public License v3.0）釋出，代表不論是學術研究或其他商業用途，任何人已經皆可自由使用、修改、發布該程式源碼，但必須符合GPL-3.0的授權規範，而倘若採用GPL-3.0授權版本做為商業使用，同樣得要套用GPL提供衍生源碼；但若希望採用非提供衍生源碼的傳統商業模式，則可另洽中研院團隊以取得傳統的商業授權。

根據該工具的文件說明，這套CkipTagger中文處理工具，不只提供繁體中文斷詞的功能，也加入詞性標注和18類專有名詞的實體辨識（Named entity recognition）等功能，甚至當以多達5萬句的ASBC 4.0漢語語料庫測試集，來進行中文斷詞測試時，CkipTagger表現遠高於中國的結巴，中研院在中文斷詞準確度可達到97.49%，相較之下，中國的結巴只有90.51%。

新版本也提供幾大特色，包括了加強斷詞表現、可以不自動刪／改字，並且能夠支援不限長度的句子，另外，新版也加入使用者自訂功能，提供參考／強制詞典的自訂功能。

不只開源中文斷詞程式，我們今年初採訪該詞庫小組計畫負責人馬偉雲時，他也提到，接下來，將用4年的時間，將中文維基百科上的百萬詞彙，自動建立其知識圖譜，來打造成為一個具有百萬中文詞庫的知識庫。他更計畫以中研院現有9萬詞彙所建立的知識圖譜架構，發展相關的自然語言處理工具，可以自動建立其知識圖譜。

熱門新聞