鍵盤記者恐怕面臨危機,PTT創辦人杜奕瑾23日於個人臉書中發布一項消息,由他領軍的臺灣人工智慧實驗室創造的記者快抄預覽版第一版上線了,杜奕瑾也表示希望大家給予意見,記者快抄是透過AI技術將PTT版上的熱門文章,重新撰寫為新聞,記者快抄在去年7月就已經悄悄上線,上線後仍不斷地在修改,目前記者快抄每天可以從PTT熱門文章中,自動產出大約500篇文章,還能透過文章內容找新聞配圖,臺灣人工智慧實驗室也將記者快抄的成果於GitHub上開源釋出,包含網頁生成、前端與UI、爬蟲、AI演算法與文章生成。

臺灣人工智慧實驗室也在部落格中的一篇貼文介紹記者快抄,記者快抄原本只是個小專案,但是,後來發現許多人開始關注AI記者寫出來的文章,臺灣人工智慧實驗室也開始投入更多的心力來改善系統,直到現在,AI記者都還持續在精進中。

臺灣人工智慧實驗室認為,對媒體產而言,如何吸引讀者眼光是產出文章的重要考量因素之一,因此,記者需要快速且大量地產出有趣文章,來吸引讀者,而AI記者則可以根據臺灣討論度最高的論壇PTT,來創造文章。

PTT是個獨立運行且開源的線上論壇平臺,目前有超過150萬個用戶,擁有15萬用戶的流量,總共有超過2萬個版在談論不同的話題,一天就能湧入約50萬則回覆。

記者快抄每30分鐘從PTT上擷取重要的文章,將文章拆解成句子,透過自然語言處理技術和深度學習演算法,撰寫成新聞,此外,AI記者還會收集每一篇文章的所有的回覆,包含「推」和「噓」的回覆,來了解大眾對於該篇貼文的反應。

AI記者產生文章大約分成3步驟,第一是摘要文章,也就是要用幾句話來描述文章的大意,首先,將文章的內容拆解為句子,透過自然語言處理中的word embedding,用向量表示每個單詞,將文字轉成數值化的資料來計算,並給予每個句子與其他句子相關連程度的分數。

接著,台灣人工智慧實驗室廣泛地收集了新聞的模板,再從這些候選的句子清單中,透過演算法挑選和編輯這些句子,在加入PTT文章中重要的句子,將這些句子組合成一篇新聞,產生新聞的模型收集了來自多個媒體超過10萬篇新聞,當作訓練資料。

最後,為了確保文章的可讀性,AI記者生成新聞後還需要經過潤飾,因為PTT的貼文通常有作者自己的風格和格式,每篇貼文的換行和空格都不太一樣,造成機器不容易判讀,為了解決這個問題,臺灣人工智慧實驗室從新聞文字中,建立了一套文法矯正器模型,來教導記者快抄的系統學習如何寫出正確的文章。

解決完文章的內容後,現在的新聞都必須搭配圖片,臺灣人工智慧實驗室也認為,光是只有文字是不夠的,新聞文章應該要有圖片,而PTT的貼文中,通常會有一些圖片連結,這些圖片連結看似個不錯的資源,不過,許多圖片連結跟貼文的內容卻沒有關聯。

因此,臺灣人工智慧實驗室為了能夠讓AI記者也像人類記者一樣搜尋圖片,他們訓練了圖片搜尋引擎的RNN模型,這個模型會比對文章和圖片描述的文字相似度,來擷取與文章內容較相近的圖片,作為新聞圖片,AI記者不但可以用原文的圖片,還能自行搜尋相關的新聞圖片。

未來,臺灣人工智慧實驗室認為,PTT版上原本的分類和AI記者萃取出來的主題,這些標示(Tags)對於搜尋相關新聞,都會有非常大的幫助,且導入人臉和語音辨識後,AI記者可以從網路上的影片中,搜尋名人對特定議題的評論,臺灣人工智慧實驗室認為,這項資訊也能夠幫助記者。

臺灣人工智慧實驗室也強調,AI記者對記者不會是威脅,而是輔助,AI記者自動挑選主題和產生文章,可以協助記者將更多心力放在撰寫內文和更深入的報導,進而產出更高品質的新聞。


Advertisement

更多 iThome相關內容