研究顯示AI瀏覽器能繞過付費牆

圖片來源:

OpenAI

OpenAI不久前推出AI瀏覽器Atlas，加入Perplexity Comet、Opera Neon的行列。一項研究顯示，由OpenAI和Perplexity AI推出的AI瀏覽器因其流量難以和真人區別，能繞過內容付費牆，使原本付費才能看到的內容曝光。而且AI瀏覽器可能會嘗試使用不同方法來繞過付費牆。

根據《哥倫比亞新聞評論》（Columbia Journalism Review, CJR）的測試，至少Atlas及Comet可能對媒體業者造成營收威脅，因為AI瀏覽器更難以辨別。研究團隊在測試中，要求OpenAI ChatGPT和Perplexity 聊天機器人從MIT Technology Review網站擷取9000字的付費內容，二者都表示無法存取，因為該雜誌封鎖了爬蟲，但如果他們要求Atlas和Comet做同樣的事，則都成功做到。

至於何以AI瀏覽器可以突破付費牆，研究團隊認為原因有二。一是對網站而言Atlas和Comet的AI代理人和使用標準Chrome的真人無異。當網頁爬蟲或機器人造訪網站時，他們會顯示數位ID表明是什麼軟體做出請求，目的為何。出版商這時可以選擇拒絕使用機器人排除協定（Robots Exclusion Protocol, REP）的特定爬蟲，而且許多廠商也都這麼做了。

但研究AI的新創公司Tollbit近日一份State of the Bots報告指出，下一代的AI代理人愈來愈難以和人類區別，從網站log來看，Atlas和Comet造訪網站留下的紀錄和人類使用Chrome的正常log一樣，因此封鎖它們也可能封鎖真人存取網站。因此出版商要偵測、監控或封鎖這些AI代理人變得愈來愈難。

第二個原因是AI代理人無法被阻擋。以MIT Technology Review和《國家地理雜誌》為例，他們都是使用客戶端的付費牆技術。這類技術在網頁載入時同時載入文字，但之後會跳出一層阻隔層遮蓋，要求使用者登入或訂閱。雖然人類看不到下面那些文字，但是AI代理人還是看得到。相較之下，《華爾街日報》或《彭博》是使用伺服器端的付費牆，伺服器在用戶輸入憑證後才會送出完整文字。如果用戶有付費，AI瀏覽器就能讀取文字。

研究團隊指出，雖然OpenAI預設不以Atlas讀取的內容來訓練模型，但是可能出現AI瀏覽器記憶混淆的問題。這意思是，封鎖OpenAI爬蟲的網頁的確不會被用來訓練大語言模型（LLM），可是ChatGPT可能會記住用戶看過的重要資訊。CJR 引述媒體華盛頓郵報報導說，Atlas很快就混淆該記住及不該記住的內容。

CJR研究團隊還發現OpenAI Atlas似乎會避免讀取和它打官司的媒體（如紐約時報）網站內容。但是當他們要求Atlas和這些網站互動時，它會嘗試使用不同方法來繞過付費牆，滿足研究人員要求。

首先，AI代理人可以利用數位麵包屑（digital breadcrumbs）反向建構出內容。例如Atlas在被要求從PCMag摘要內容時，它即使不從官網讀取（其母公司控告OpenAI），也會從推文、其他網站引述或供稿新聞或其他網頁內容拼湊出摘要。

研究人員在要求另一家控告OpenAI的媒體紐約時報（New York Times）內容摘要時，Atlas則採取不同策略。他不是重建出內容，而是從其他四家媒體網站取得內容，而其中三家和OpenAI簽下內容授權合約。

研究人員也點出內容出版商的困境：即使技術上它們真防得住Atlas，但那時候Atlas可能乾脆引導或建議使用者前往另家媒體網站。

熱門新聞