Factmata過去專注於開發新聞內容分析技術,官網上提供的分析服務,可以讓人將英文新聞的連結貼到該服務的搜尋欄位,來自動分析該篇新聞中具有政治偏見、性別歧視等8種不當內容的可能性。

圖片來源: 

圖/取自Disinfo Cloud官網

全球、區域性武漢肺炎疫情分析的儀表板已經屢見不鮮,美國約翰霍普金斯大學在一月底就發布了全球確診病例數儀表板,臺灣疾管署官網也用疫情分析圖表,來呈現臺灣的確診人數變化。不過,除了疫情分析儀表板之外,英國有家AI新創Factmata,三月中發起COVID-19假訊息儀表板專案,號招軟體工程師、資料科學家共同投入儀表板的開發,來統計並追蹤疫情期間泛濫的假新聞。雖然該儀表板尚未釋出,但Factmata的執行長Dhruv Ghulati 5月底在Twitter表示,即將公開這個令人振奮的成果!

根據路透社新聞研究指出,光是1~3月武漢肺炎假新聞的查核數量就暴增9倍,趨勢科技防詐達人也統計,臺灣自疫情爆發以來,2月份所偵測到的假消息數量高達20萬次,相較之前暴增2倍之多。這些數據一再凸顯了有心人士在疫情期間操控、散播假訊息的問題,更有深受其害的國家如伊朗,因流傳喝高濃度酒精能預防武漢肺炎的假訊息,已經有至少480人喪命。

為此,原先就運用NLP技術開發新聞內容分析引擎的Factmata,也投入開發疫情假訊息儀表板,來定期追蹤與分析疫情相關的不實資訊。根據美國國務院所支持的打假技術審核平臺Disinfo Cloud的介紹,Factmata即將釋出的儀表板及其AI假新聞判讀技術,每個月可審核超過五千萬條內容,可檢測的網路資料形態涵蓋新聞網站、社交平臺中的內容,也能追蹤不實訊息的來源網站或散播者,同時凸顯值得信任的資料來源。

在這個儀表板中,有一個敘述監控系統,能讓分析人員追蹤和群聚特定檢索詞範圍內所有與武漢肺炎相關的敘述,Fatamata表示,這個技術有助於過濾掉與主題無關的內容,凸顯有價值的敘述或意見,再拿來進一步分析。比如根據分析結果,「寵物可以感染並散布病毒」這個敘述,是5月1日~6日間散播速度最快的不實訊息。而針對這些關鍵意見或敘述,儀表板可以自動萃取出它的作者、立場、語言風格、來源和發布日期等相關訊息,以視覺化的分析圖表來顯示這些敘述隨著時間的變化趨勢。

針對這些關鍵敘述與內容,Factmata也開發了內容可靠性評分的技術,能夠根據不同評分機制來過濾內容,這些評分機制包括:內容由機器人生成的可能性(bot score)、隱含政治偏見的程度(propaganda score)、受歡迎程度(popularity)、有趣卻沒被推薦的可能性(niche)、被廣泛散播的可能性(threat score)等。

除了上述的評分機制,Factmata也開發了與疫情相關的醫療不實資訊演算法,來找出威脅程度最高的敘述內容,藉此確定優先處理的順序。為了訓練醫療不實資訊演算法,Factmata已經建立了一個由10多個醫療小組組成的社群,以群眾外包的方式來對錯誤訊息進行標記。這個模型透過專家註釋、資料來源可信度、社交關係網絡、與過去事實查核敘述的相似度等面向,來判斷內容是否存在不實訊息,以及內容是否存在醫療不實資訊等。該判讀技術能對長篇文章或短篇Twitter推文來審查。

Factmata開發的新聞內容辨識技術可提供臺灣借鏡

除了近日要發表COVID-19假訊息儀表板,Factmata過去專注於開發新聞內容分析技術,官網上提供的分析服務,可以讓人將英文新聞的連結貼到該服務的搜尋欄位,來自動分析該篇新聞中包含的政治偏見、性別歧視、聳動標題(Clickbait)、侮辱言論、猥褻言論、不敬言詞(Toxicity)、種族歧視、威脅的程度,生成如該篇新聞有61%的可能性具有政治偏見、12%可能性具有聳動標題等建議,同時提供一個對於整篇新聞的評價分數,讓用戶自行判斷是否要相信新聞中的內容資訊,或是否點擊閱讀。

資策會產業分析師張皓甯在一場研討會中表示,Factmata的內容分析技術,並不是直接判讀某篇新聞的真假,而是提供用戶判讀的參考依據,是可解釋AI技術(XAI)的展現。她提到,現在的社群媒體已經很難靠一己之力來對抗假訊息,常需要仰賴與第三方合作來打擊假訊息,但假訊息會因地域、語言、用戶特性而有不同的呈現方式,因此,她建議,臺灣有意投入AI假訊息辨識的業者,可以開發特定區域的影像、語音、影音辨識技術,來進行差異化開發,開發AI的同時,也可以運用XAI技術讓假訊息的檢核標準有所依據。


Advertisement

更多 iThome相關內容