Cloudflare推出封鎖AI內容爬蟲的工具

有鑒於OpenAI、Google等AI業者以網頁機器人（bot）未經同意擷取網路論壇或內容出版商公開網頁的內容，Cloudflare推出防範工具。

生成式AI正夯，推升業者對模型訓練和推論的需求。有的AI業者會明白揭露網頁擷取機器人的存在，但不是大家都如此。例如美國女演員Scarlett Johansson指控OpenAI未經同意使用其聲音整合到個人助理服務，Perplexity則被控冒充合法用戶以擷取別的網站內容。

Cloudflare去年就宣布了能封鎖網頁爬蟲機器人的服務給任何Cloudflare方案的用戶，最基礎的稱為Bot Fight Mode。這服務利用攻擊簽章比對、啟發式技術、機器學習和行為分析技術，辨別好的或壞的機器人。所謂好的AI機器人（AI bot）是會尋找robots.txt，試圖遵守合法規範，也不非法使用網頁內容訓練模型或執行RAG（reinforcement augmented generation）應用。Clouflare還提供了驗證機器人目錄，允許「好機器人」如GoogleBot註冊，以便Cloudflare客戶有權放行。

不過針對排斥所有AI機器人的網站，Cloudflare最近又加入了一鍵封鎖所有AI機器人的服務，提供給免費或付費用戶。用戶可以在Cloudflare控制臺的「設定」>「Bots」專頁中的AI Scrapers and Crawlers滑鈕。

本功能會隨著Cloudflare加入新的機器人指紋而自動更新。

內容業者對AI爬蟲機器人已不再容忍，繼去年紐約時報控告OpenAI和微軟未經同意掠取網站內容用於訓練AI模型，上個月這二家大廠又被非營利的調查報導出版業者Mother Jones控告侵權。

熱門新聞