台大自然語言處理實驗室採用語言分析的技術,建構了「多文件新聞自動摘要系統」,此系統可自動連結至已設定的新聞網頁中,蒐集相關議題的新聞後,並將其整理出摘要,以節省使用者閱讀的時間。

台大自然語言處理實驗室採用語言分析的技術,建構了「多文件新聞自動摘要系統」,此系統可自動連結至已設定的新聞網頁中,蒐集相關議題的新聞後,並將其整理出摘要,以節省使用者閱讀的時間。

此系統擷取了文件自動摘要技術的原理,並進一步的應用。台大資訊工程系教師陳信希表示,自然語言處理實驗室所研發的文件自動摘要技術,曾參加國際性的比賽,目前他們同時擁有中、英文的文件自動摘要技術。

所謂的文件自動摘要是利用語言分析系統地快速地在一篇文章中找出重點摘要,讓使用者可以在最短的文字中,了解整篇文章的精華。而「多文件新聞自動摘要系統」則可提供更多的服務,使用者可先設定要上那些新聞網頁,系統會自動抓取網頁內容,並針對相同的新聞事件,提供整合性的摘要。在「多文件新聞自動摘要系統」中,可使用兩種摘要模式,一是重點式摘要,另一則是瀏覽式摘要。

其中,重點式摘要抓取的是眾多同性質的報導中,皆會被披露的部份,此種摘要通常都比較簡短,使用者可以閱讀到精簡的新聞重點;而瀏覽式摘要則是提供了新聞報導的所有觀點和內容,但同樣的內容是不重覆的,此種模式的摘要的篇幅較長,但卻不會遺漏不同媒體的新聞觀點。上述兩種摘要模式各有所長,使用者可以根據自己需要獲得的資訊性質來決定要採取那種摘要模式。

陳信希指出,文件自動摘要系統僅是語言分析運用的其中一環,現階段他們正在嘗試將語言分析嵌進個人化網頁的行為分析系統中,使得系統可依使用者在網站上發表的文章內容來進行個人特質的分類。

有興趣的使用者可連至台大自然語言處理實驗室網站觀看此系統的展示版本。

熱門新聞

Advertisement