圖片來源: 

Reddit

The Verge本周報導,社交新聞平臺Reddit即將封鎖網際網路檔案館(Internet Archive)對該平臺的大部分爬梳,原因是許多AI業者都藉由該館的時光機(Wayback Machine)功能來抓取Reddit內容。

成立於1996年的Internet Archive是個非營利組織,使命是保守網路與文化資產,時光機則是該組織最知名的服務之一,它會定期透過網路爬蟲來抓取網站的快照並存檔,使用者只要輸入網址便能瀏覽該網頁過去的版本。

至於對Reddit而言,網站上的內容是有價的,特別是在AI系統大量搜刮網路上的內容來訓練模型之際,它在2024年2月便與Google簽署了與AI有關的內容合作協議,繼之在同年5月與OpenAI建立類似的合作關係,並在同年6月控告擅自抓取資料的Anthropic

值得注意的是,儘管許多內容平臺都已透過robots.txt文件明文禁止AI新創來爬梳其網站,但內容管理暨雲端服務業者Cloudflare日前控訴Perplexity無視這些政策,依然藉由建立新網域或是隱藏自家爬蟲來爬梳別人家的內容。

根據報導,Reddit並未指名道姓,僅說該公司逮到許多AI公司(AI companies)利用Wayback Machine來取得Reddit內容。

於是,原本可以爬梳Reddit內容的Internet Archive也要被封鎖了,未來僅能爬梳及索引Reddit的首頁,不能再爬梳與索引使用者的個人檔案、所張貼或回應的內容。

Reddit發言人Tim Rathschmidt向The Verge透露,在Internet Archive能夠保護自己的網站並遵守第三方平臺政策之前,將會限制其存取能力。

熱門新聞

Advertisement