有鑒於OpenAI、Google等AI業者以網頁機器人(bot)未經同意擷取網路論壇或內容出版商公開網頁的內容,Cloudflare推出防範工具。
生成式AI正夯,推升業者對模型訓練和推論的需求。有的AI業者會明白揭露網頁擷取機器人的存在,但不是大家都如此。例如美國女演員Scarlett Johansson指控OpenAI未經同意使用其聲音整合到個人助理服務,Perplexity則被控冒充合法用戶以擷取別的網站內容。
Cloudflare去年就宣布了能封鎖網頁爬蟲機器人的服務給任何Cloudflare方案的用戶,最基礎的稱為Bot Fight Mode。這服務利用攻擊簽章比對、啟發式技術、機器學習和行為分析技術,辨別好的或壞的機器人。所謂好的AI機器人(AI bot)是會尋找robots.txt,試圖遵守合法規範,也不非法使用網頁內容訓練模型或執行RAG(reinforcement augmented generation)應用。Clouflare還提供了驗證機器人目錄,允許「好機器人」如GoogleBot註冊,以便Cloudflare客戶有權放行。
不過針對排斥所有AI機器人的網站,Cloudflare最近又加入了一鍵封鎖所有AI機器人的服務,提供給免費或付費用戶。用戶可以在Cloudflare控制臺的「設定」>「Bots」專頁中的AI Scrapers and Crawlers滑鈕。
本功能會隨著Cloudflare加入新的機器人指紋而自動更新。
內容業者對AI爬蟲機器人已不再容忍,繼去年紐約時報控告OpenAI和微軟未經同意掠取網站內容用於訓練AI模型,上個月這二家大廠又被非營利的調查報導出版業者Mother Jones控告侵權。
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07