
Pangram
在AI興起之後,有多少論文是由AI生成?又有多少論文審查是由AI執行?2024年創辦、專門偵測AI內容的Pangram,最近針對提交到2026年國際表徵學習會議(International Conference on Learning Representations,ICLR)的論文與審稿內容進行偵測,發現在7萬篇審稿內容中,有21%的審稿內容完成由AI生成。
ICLR為全球前三大AI研究會議之一,ICLR 2026將在2026年4月於巴西里約舉行,提交給ICLR的論文是透過OpenReview學術審查平臺,代表其論文、審稿意見或作者回覆都是公開的。經常投稿ICLR也負責審稿的美國卡內基美隆大學語言技術研究所教授Graham Neubig,在11月中發出50美元的懸賞,號召有志之士針對ICLR論文及審查進行大型語言模型(LLM)的使用檢測,而Pangram決定接下這個任務。
ICLR明文訂定了LLM使用規範,要求任何使用LLM的行為都必須揭露,且作者與審稿人都必須為最終內容負責,不得捏造或誤導。作者可以使用LLM協助撰稿或研究助理性質的工作,也可用於拼字與文法檢查,但需揭露並保證科學內容正確。然而,若審稿人將整篇審稿交由LLM生成,可能違反ICL的倫理規範,因為這等同未履行自身的審稿責任,也可能造成內容品質低落或不誠實等問題。
Pangram下載了提交至ICLR 2026的1.9萬篇論文與7萬篇審稿內容,先將論文分段,再利用新模型EditLens逐段判斷AI生成比例,將其分為完全人類、輕度AI編修、中度AI編修、重度AI編修,以及完全AI生成等5個等級,發現在1.9萬篇的論文當中,有61%主要由人類撰寫,9%的投稿有超過一半的內容來自AI,以及數百篇幾乎完全由AI生成的內容,此外,有些完全由AI生成的內容在初審時便已被ICLR大會淘汰。
至於在7萬篇審稿內容中,有超過一半的審查內容在某種程度上使用了AI,並有21%的審稿內容完成由AI生成。
值得注意的是,在論文中,AI生成內容占比愈高,其審稿分數就愈低;但在審稿中,大量依賴AI的評論反而會給出高分,這是因為大型模型通常會給出相對正面的逢迎分數,內容很長且密度很低,還會亂給意見。
熱門新聞
2025-12-24
2025-12-29
2025-12-26
2025-12-29
2025-12-26