
OpenAI
OpenAI不久前推出AI瀏覽器Atlas,加入Perplexity Comet、Opera Neon的行列。一項研究顯示,由OpenAI和Perplexity AI推出的AI瀏覽器因其流量難以和真人區別,能繞過內容付費牆,使原本付費才能看到的內容曝光。而且AI瀏覽器可能會嘗試使用不同方法來繞過付費牆。
根據《哥倫比亞新聞評論》(Columbia Journalism Review, CJR)的測試,至少Atlas及Comet可能對媒體業者造成營收威脅,因為AI瀏覽器更難以辨別。研究團隊在測試中,要求OpenAI ChatGPT和Perplexity 聊天機器人從MIT Technology Review網站擷取9000字的付費內容,二者都表示無法存取,因為該雜誌封鎖了爬蟲,但如果他們要求Atlas和Comet做同樣的事,則都成功做到。
至於何以AI瀏覽器可以突破付費牆,研究團隊認為原因有二。一是對網站而言Atlas和Comet的AI代理人和使用標準Chrome的真人無異。當網頁爬蟲或機器人造訪網站時,他們會顯示數位ID表明是什麼軟體做出請求,目的為何。出版商這時可以選擇拒絕使用機器人排除協定(Robots Exclusion Protocol, REP)的特定爬蟲,而且許多廠商也都這麼做了。
但研究AI的新創公司Tollbit近日一份State of the Bots報告指出,下一代的AI代理人愈來愈難以和人類區別,從網站log來看,Atlas和Comet造訪網站留下的紀錄和人類使用Chrome的正常log一樣,因此封鎖它們也可能封鎖真人存取網站。因此出版商要偵測、監控或封鎖這些AI代理人變得愈來愈難。
第二個原因是AI代理人無法被阻擋。以MIT Technology Review和《國家地理雜誌》為例,他們都是使用客戶端的付費牆技術。這類技術在網頁載入時同時載入文字,但之後會跳出一層阻隔層遮蓋,要求使用者登入或訂閱。雖然人類看不到下面那些文字,但是AI代理人還是看得到。相較之下,《華爾街日報》或《彭博》是使用伺服器端的付費牆,伺服器在用戶輸入憑證後才會送出完整文字。如果用戶有付費,AI瀏覽器就能讀取文字。
研究團隊指出,雖然OpenAI預設不以Atlas讀取的內容來訓練模型,但是可能出現AI瀏覽器記憶混淆的問題。這意思是,封鎖OpenAI爬蟲的網頁的確不會被用來訓練大語言模型(LLM),可是ChatGPT可能會記住用戶看過的重要資訊。CJR 引述媒體華盛頓郵報報導說,Atlas很快就混淆該記住及不該記住的內容。
CJR研究團隊還發現OpenAI Atlas似乎會避免讀取和它打官司的媒體(如紐約時報)網站內容。但是當他們要求Atlas和這些網站互動時,它會嘗試使用不同方法來繞過付費牆,滿足研究人員要求。
首先,AI代理人可以利用數位麵包屑(digital breadcrumbs)反向建構出內容。例如Atlas在被要求從PCMag摘要內容時,它即使不從官網讀取(其母公司控告OpenAI),也會從推文、其他網站引述或供稿新聞或其他網頁內容拼湊出摘要。
研究人員在要求另一家控告OpenAI的媒體紐約時報(New York Times)內容摘要時,Atlas則採取不同策略。他不是重建出內容,而是從其他四家媒體網站取得內容,而其中三家和OpenAI簽下內容授權合約。
研究人員也點出內容出版商的困境:即使技術上它們真防得住Atlas,但那時候Atlas可能乾脆引導或建議使用者前往另家媒體網站。
熱門新聞
2025-12-24
2025-12-23
2025-12-24
2025-12-22
2025-12-19
2025-12-23
2025-12-24