Wikimedia去年的多媒體內容頻寬用量大幅成長50%，主要來自AI機器人的資料爬蟲

維基媒體基金會（Wikimedia Foundation）周二（4/1）表示，自2024年以來，外界對於由志工建立的維基媒體社群的內容需求大幅攀升，特別是維基共享資源（Wikimedia Commons）上所存放的1.44億個圖像、影片或其它檔案，下載相關多媒體內容的頻寬成長了50%，其增長主要來自於AI模型的爬蟲機器人，因此該基金會訂定了年度計畫，預計減少20%的爬蟲請求，以及降低30%的爬蟲資料傳輸流量，以節省資源及頻寬，供真正需要服務的開發者使用。

該基金會指出，維基媒體的各個專案一直是全球最大的開放知識集合，不管是人類搜尋或是商用產品的存取都仰賴它們，其中，內容一直是搜尋引擎結果的關鍵組成部分，同時也會將使用者引導至維基媒體的網頁，然而，AI的興起使其動態產生了變化，他們觀察到請求數量明顯增加，所增加的流量中大多數是來自於替大型語言模型（LLM）或其它案例蒐集資料的爬蟲機器人，而這些流量大部分並沒有註明所取得的資料來源，同時還對維基媒體的底層基礎設施造成了大量的負擔。

根據維基媒體基金會的統計，自2024年1月以來，用於下載多媒體內容的頻寬增加了50%，此一增長並非來自人類，主要來自自動化程式，這些爬蟲程式抓取Wikimedia Commons影像目錄中的公開許可圖像，以將圖像提供給AI模型。該平臺的基礎設施可承受高關注事件發生時，人類於短時間相繼造訪所形成的流量高峰，然而，若花費大量的時間與資源來回應非人為的流量時，該平臺容納異常事件的空間就會縮小，也衍生出愈來愈大的風險與成本。

維基媒體基金會是藉由全球的資料中心網路替使用者提供內容，當一篇文章被多次請求時，他們會在離使用者最近的資料中心記住或快取它們，倘若某篇文章很久未被請求，那麼則會自核心資料中心供應，意味著此一請求必須行經從靠近使用者的資料中心到核心資料中心的所有路徑，再將其儲存在區域資料中心。

人類讀者與機器人的差別在於，人類通常會造訪特定或相似的主題，但爬蟲機器人通常是批量閱讀大量的頁面，包括那些很少被存取的冷門頁面，意謂著許多請求會被轉至核心資料中心，消耗更多的資源。

在維基媒體進行系統遷移時，發現機器人瀏覽的網頁數量僅占全體的35%，但造訪其核心資料中心的流量卻高達65%。

維基媒體基金會強調，他們的內容是免費的，但基礎設施不是，新的財政年度將著重於負責任地使用基礎設施，將工程資源優先用來該基金會的各種專案、貢獻者，以及人類對知識的存取，準備減少20%由機器人產生的流量，降低30%的爬蟲機器人使用頻寬，估計到今年第4季時，將有50%的自動化流量可歸因於已知的開發人員或應用程式，提高基礎設施的可持續性並防止濫用。

熱門新聞