Reddit將封鎖Internet Archive的大部分爬梳

圖片來源:

The Verge本周報導，社交新聞平臺Reddit即將封鎖網際網路檔案館（Internet Archive）對該平臺的大部分爬梳，原因是許多AI業者都藉由該館的時光機（Wayback Machine）功能來抓取Reddit內容。

成立於1996年的Internet Archive是個非營利組織，使命是保守網路與文化資產，時光機則是該組織最知名的服務之一，它會定期透過網路爬蟲來抓取網站的快照並存檔，使用者只要輸入網址便能瀏覽該網頁過去的版本。

至於對Reddit而言，網站上的內容是有價的，特別是在AI系統大量搜刮網路上的內容來訓練模型之際，它在2024年2月便與Google簽署了與AI有關的內容合作協議，繼之在同年5月與OpenAI建立類似的合作關係，並在同年6月控告擅自抓取資料的Anthropic。

值得注意的是，儘管許多內容平臺都已透過robots.txt文件明文禁止AI新創來爬梳其網站，但內容管理暨雲端服務業者Cloudflare日前控訴Perplexity無視這些政策，依然藉由建立新網域或是隱藏自家爬蟲來爬梳別人家的內容。

根據報導，Reddit並未指名道姓，僅說該公司逮到許多AI公司（AI companies）利用Wayback Machine來取得Reddit內容。

於是，原本可以爬梳Reddit內容的Internet Archive也要被封鎖了，未來僅能爬梳及索引Reddit的首頁，不能再爬梳與索引使用者的個人檔案、所張貼或回應的內容。

Reddit發言人Tim Rathschmidt向The Verge透露，在Internet Archive能夠保護自己的網站並遵守第三方平臺政策之前，將會限制其存取能力。

熱門新聞