Fastly觀測2025年第二季人工智慧機器人對網站造成的流量分布,爬蟲約占八成,而即時截取工具約只占兩成,但在高峰時對網站基礎設施帶來顯著壓力

雲端業者Fastly在2025第二季的Threat Insights報告指出,人工智慧機器人正在改變網站流量結構,雖然人工智慧機器人流量的80%來自爬蟲,不過,真正對基礎設施造成壓力的是來自模型推理階段的即時擷取。即時截取工具在高峰甚至可對同一網站發出每分鐘3.9萬次請求,遠高於最大訓練爬蟲約每分鐘1千次,可能對未加以防護的網站形成類似DDoS的衝擊。

根據Fastly的資料,人工智慧爬蟲流量主要由Meta、Google與OpenAI三大業者產生,合計占比高達95%,其中Meta單獨貢獻了52%,Google為23%,OpenAI則約20%。在即時擷取方面,OpenAI的ChatGPT-User與OAI-SearchBot為絕對大宗,合計占即時截取工具流量近98%。

以區域來看,北美網站接收的人工智慧流量接近90%屬於爬蟲,歐洲、中東與非洲地區(EMEA)情況則相反,即時截取工具占59%,亞太(APAC)與拉丁美洲以爬蟲為主,但比例相對較低。產業面也呈現分化,教育與媒體娛樂流量以即時截取工具為主,分別為68%與54%,更容易受到即時查詢的高並行影響,相較之下,電商、醫療與公共部門超過90%流量為爬蟲。

在內容來源方面,OpenAI的GPTBot雖不是最大流量來源,但覆蓋範圍最廣,以觸及的獨立網站數計算,其覆蓋率高達95%,採取的是廣度策略,而Meta策略則是深度索引,流量龐大但命中網站數較少。

Common Crawl的CCBot特色則為每月兩星期的規律抓取,覆蓋約63%的人工智慧爬蟲觸及網站,長期被學術界與小型團隊用於研究資料蒐集。整體而言,訓練資料仍明顯偏重北美,在亞太地區,網站資料則主要由日本的軟銀(SoftBank)與NICT索引,這顯示亞太資料並非平均分布,而是傾向集中於日本,進一步影響模型可能展現出較接近日本的資訊樣貌。

這些趨勢代表網站需要在政策與技術上雙重準備,策略層面上,官方建議,可透過robots.txt與X-Robots-Tag明確宣告允許或拒絕的範圍,並要求人工智慧爬蟲提供可驗證的身分資訊,如公開IP與反向DNS。技術層面則需導入速率限制、來源挑戰與即時監測,確保能將正常的自動化與惡意或偽裝流量加以區隔。

Fastly強調,這些結論來自其對超過13萬個應用與API的流量分析樣本,每月平均涵蓋6.5兆請求。

熱門新聞

Advertisement