Line臺灣資料工程部資深經理蔡景祥(圖左)和資料工程部資料科學家吳肇中(圖右)指出,Line訊息查證中心成立之初,就採用當時剛問世的NLP經典模型BERT來進行假新聞文章分類和近似文章辨識。

圖片來源: 

攝影/洪政偉

今年5月疫情在臺灣瞬間爆發,全國進入三級警戒,確診人數史無前例來到三位數。但暴增的不只是病例數,還有各種假新聞。「光是5月,每天湧入Line訊息查證中心的人數就比之前高出3.6倍,」Line臺灣表示。

一如病毒喜歡在人群間流竄,假新聞最常在通訊平臺蔓延。在臺擁有2千萬活躍用戶的Line,每天群組傳遞的訊息高達93億則,為避免成為假新聞培養皿,Line臺灣兩年前就聯手行政院和4家事實查核機構,成立訊息查證中心,來提供正確的新聞資訊。

隨著疫情起伏,更湧出巨量待查核新聞,Line如何因應?

兩款AI模型分工,辨識文章相似度再分類給專家

答案是「靠兩套AI模型加速查核速度。」Line臺灣資料工程部資深經理蔡景祥指出,Line本身不進行訊息查核,而是透過自動化的機制,匯聚查核的結果供使用者檢閱。因此,Line訊息查證中心成立之初,就利用兩套自然語言預訓練模型,來進行近似文章辨識和文章分類。

這麼做的原因是,新聞內容的真假,仍仰賴不少專家人工判讀,但許多假新聞都是同一則重複散播的訊息,因此只要辨識出這些文章的同一則來源,查核一次即可,省下大量人力的重工。

如此,每當Line訊息查證中心收到一則文章查核通報,會先利用近似文章辨識的AI技術,來比對已查證過的新聞。只有當通報的新聞未經查證,Line訊息查證中心才會將文章分派給專家,來查證真偽。但這些專家擅長領域不同,有些專精政治、醫療,有些熟悉體育、娛樂。為將通報的新聞派送給合適領域的專家,Line也利用AI模型來分類文章,並將派送過程自動化。

不論是文章辨識和文章分類工作,都要靠NLP技術才能提高準確度。一開始,Line使用BERT模型來執行這些任務,BERT是Google在2018年底發表的NLP經典模型,一問世就在各大基準測試排行榜上名列前矛,在各種自然語言理解任務創下佳績。採用Transformer架構的BERT,可雙向分析語言,理解力幾乎完勝過往任一NLP模型。

原模型表現不理想,改用SBERT比對文章相似度

BERT問世後幾個月,Line很快就在自家訊息查證任務上,嘗試這項新技術。不過,「BERT在假新聞近似文章判斷,仍有進步空間。」蔡景祥指出,BERT雖有一定的辨識水準,但模型上線後出現不少狀況,比如使用者查詢特定主題新聞時,模型會給出不甚精準的答案。這促使Line團隊開始尋找其他解決方法,經過多方試驗和比較,他們決定改用BERT的變形模型Sentence-BERT(簡稱SBERT),來執行近似文章判斷任務。

近似文章判斷又稱為語義文本搜尋(Semantic textual similarity),會利用不同指標來衡量一對句子的相似度。SBERT厲害之處在於「對句子的理解力更強,而非只聚焦單字本身,」Line臺灣資料工程部資料科學家吳肇中說。這是因為,SBERT採用孿生神經網路(Siamese Network),這種三元網路的結構更容易得到有意義的句子嵌入,辨識能力比BERT還要好。

經三番試驗,文章分類採用BERT變形模型

不只在近似文章辨識的AI模型持續精進,Line在文章分類AI技術上也經過多次試驗,才找出目前的作法 。Line研究了多款NLP模型,再進一步比較BERT、ELECTRA和一般主題分類常見的LDA等三種模型。他們發現,ELECTRA最符合「辨識精準、快速且模型不肥大的需求,」吳肇中說。

ELECTRA這個NLP技術的來頭也不小。自2018年發表BERT後,Google時不時推出改良版模型,ELECTRA就是其一。有別於其他以遮罩(Mask)為主的改良版模型,ELECTRA的架構猶如生成對抗網路GAN,能靠生成器和鑑別器來分辨文句真偽,而且,「模型在分類上也有不錯的表現,」吳肇中表示。Google在發表ELECTRA的論文中更指出,其耗能比NLP經典模型BERT來得低,只需四分之一的運算資源就能達到SOTA表現。

「這個優勢,非常適合新聞分類,」吳肇中強調。於是,他們利用事實查核中心提供的數千筆新聞分類資料訓練模型,大約1小時就完成訓練,部署來分辨文章類型。

預訓練模型微調就能快速落地,但也有門檻

不論是ELECTRA還是SBERT,為應付不斷變動的假新聞用語和風格,Line甚至每天都會更新模型,以當日新增的資料來調整模型,讓模型更懂時下熱門話題。

這就是預訓練模型的好處,因為已用大量、各式各樣的資料來訓練模型,因此,後續採用者只需少量資料,就能快速微調成出符合需求的模型。不過,「我們也曾從零開始訓練一套模型。」蔡景祥回憶,團隊曾在另一個專案中,自行收集、標註4,000多筆文字資料來訓練分類模型,但模型表現只有0.4、0.5。

後來,Line臺灣團隊加碼擴大訓練資料量至1萬6千筆,模型表現才達0.7,勉強堪用。但在那之後,就算團隊收集再多資料,也無法提高模型準確度。蔡景祥點出,1萬6千筆標記資料的成本太大,不僅要投入大量人力標註,也要人工維護這些標註資料,「負擔很大。」

但BERT預訓練模型就沒有這類問題。「同樣任務改用BERT,就不需要這麼多標記資料,幾千筆也能達到很好的效果。」在蔡景祥看來,採用預訓練模型比重建一套模型更經濟,也更有效率。

不過,微調也不是一件輕鬆事。蔡景祥點出,只有專精特定領域的資料科學家才能做好微調工作。為了降低門檻,Line也藉助自動化機器學習工具AutoML自動挑選最佳參數組合,把省下來的人力專注在微調工作上。

你沒注意到的小細節,都有BERT的影子

不只訊息查證使用BERT,Line許多功能也有BERT的影子。舉例來說,Line的光學文字辨識(OCR)服務就靠BERT來校正文字。它的原理是,先透過一套AI模型,在影像畫面中框出文字形狀,透過形狀來猜字,再靠另一套BERT模型計算字與字之間的機率,判斷合理性。要是兩字連著出現的機率太低,模型就會校正文字,提高辨識準確度。

除此之外,Line在命名實體辨識(NER)上也運用BERT模型。所謂NER是指,從文章中辨識人名、地名、組織名等專有名詞的技術。NER雖然不是一套最終產品,但是個不可或缺的工具,很多服務和功能都會用到它。

比如,Line有一套內部使用的NER工具,可從文章中挑出人名、地名、時間、機構名稱等名詞,自動轉為標籤,讓自家小編用來編輯相同主題的文章;而Line Today的每篇新聞,下方的#主題標籤也是靠NER先挑出候選關鍵字,再靠其他演算法排序挑選出來。

在蔡景祥看來,NER是自然語言理解(NLU)的一部分,能讓電腦掌握更多文章訊息,作為下一個服務的元素。比如,NER可用來鎖定特定關鍵字,如麻辣鍋,如此能將麻辣鍋相關食記和麻辣鍋店家連結起來,發展出食記推薦餐廳的服務,供使用者參考。

至此,Line臺灣累積不少BERT經驗,特別是訊息查證的近似文章搜尋和分類。他們希望將這個經驗擴散到更多服務,像是電商,透過自動分類、貼標、找出關鍵字等功能,來加速商品分類和推薦。

近似文章搜尋也是,可用來推薦相同主題的文章,如食記、遊記等。蔡景祥更透露,團隊也在研究自然語言生成(NLG)等前瞻技術,衡量能否提供長文縮短、編寫摘要,甚至是短句生成的服務,「成為寫文章的好助手。」

Line還有更大野心,要用Transformer通吃文字影像辨識

不只是臺灣Line團隊投入NLG技術的研究,一個多月前,Line母公司Naver舉辦線上AI技術大會,揭露了最新的NLG成果,發表了一套號稱是韓文版GPT-3的自然語言預訓練模型HyperCLOVA,具2,040億個參數,比公認的NLG指標模型GPT-3還要多。

Naver AI研究中心的主管們,在大會上興致勃勃展示HyperCLOVA的各種用途。這個AI工具能與人類自然對話,能靠幾個關鍵字生成產品介紹,還能總結複雜的文件檔案。特別的是,HyperCLOVA能讓使用者選擇、組織用來訓練另一個AI所需的資料。Naver本身也在5月初,在自家網站部署HyperCLOVA,來提供自動更正錯字、推薦相關搜尋關鍵字的功能。

Naver不只在這場大會秀最新技術,也宣示AI野心。Naver AI研究中心總監Jeong Seok-geun直言:「身為代表韓國AI科技發展的公司,我們將突破挑戰,聯手各界創造一個AI新時代。」

HyperCLOVA就是一個新利器,Naver計畫要它學會更多語言,還要能看懂圖像和影片,來提供更人性化的企業服務。Line臺灣更透露,團隊目前正商討HyperCLOVA潛在的中文應用場景。文⊙王若樸

 快速認識科技巨頭力捧的Transformer 

Google在2017年提出Transformer模型,是一個把注意力機制發揮到極致的架構,專門用來處理序列型任務,如自然語言處理(NLP),效果更勝傳統RNN。隔年,Google以Transformer為基礎,發表一套NLP預訓練模型BERT,在各大基準測試(Benchmark)拿下榜首,劃下NLP時代分水嶺。此後,各種Transformer變形雨後春筍般湧出,像是臉書的RoBERTa、Google的XLNet、華為的TinyBERT,以及OpenAI的GPT-3,可說是遍地開花。

GPT-3和BERT一樣,都取自Transformer架構,只是前者採用Transformer的編碼器和解碼器,因此能執行自然語言生成任務,如文章創作、摘要生成,而BERT只採用編碼器,因此擅長自然語言理解任務,如翻譯、問答等。

不過,去年底,這些科技巨頭開始探索Transformer的另一個潛能,也就是影像辨識。Google去年底發表一篇論文,指出Transformer可媲美傳統影像辨識模型CNN。論文一出,立即引起ML社群議論,不少AI界指標性人物看好Transformer的多模態潛力。

今年初,OpenAI用Transformer架構打造出可同時辨識文字和圖像的類神經網路DALL·E,Transformer正式步入多模態任務的解方模型。後來,臉書也接續發表可辨識文字和影像的模型DINO與PAW,而Google更在5月I/O大會上,揭露一款能同時辨識文字和影像的Transformer模型MUM,計畫要將MUM用來改善Google搜尋服務,將文字搜尋納入圖片資料,豐富使用者體驗。

從這個趨勢看來,Transformer持續成為科技巨頭的熱門研究對象,甚至會引發新一波多模態模型革新。


熱門新聞

Advertisement