資安業者Oligo Security揭露,一系列影響人工智慧推論引擎的重大遠端程式碼執行漏洞,出現在Meta、Nvidia與微軟等業者使用的推論框架,以及vLLM、SGLang與Modular Max等開源專案,問題源頭被研究團隊統稱為ShadowMQ。這些框架多被用來支撐雲端LLM服務與企業內部人工智慧平臺,未更新修補,就有讓攻擊者在推論叢集上執行任意程式碼的風險。

ShadowMQ並不是某一個單一產品的錯誤,研究人員指出,多個框架使用ZeroMQ進行節點間通訊時,採用Python的pickle模組從網路Socket直接反序列化收到的物件,像是透過recv_pyobj這類方便函式,一旦該Socket對外開放,而且沒有任何驗證機制,攻擊者只要能連上通訊埠,就可能送入特製資料,在反序列化過程中觸發任意程式碼執行。

這個模式最早出現在Meta的Llama Stack,對應CVE-2024-50050,影響0.0.41之前版本。Meta現在已改用JSON等較安全的序列化方式,修補了該缺陷。不過,後續分析顯示,相同的通訊與反序列化寫法,已被複製到Nvidia的TensorRT-LLM、微軟的Sarathi-Serve、Modular Max Server,以及vLLM與SGLang等多個專案。

研究人員在追蹤程式碼脈絡時發現,部分檔案幾乎是整份搬過去,甚至在檔頭註明Adapted from vLLM,而Modular Max又從vLLM與SGLang同時借用邏輯。這代表各家維護團隊並非各自獨立犯錯,而是直接沿用其他專案程式碼,同時也複製了不安全寫法,研究團隊因此以ShadowMQ命名。

由於這些推論引擎往往位在人工智慧基礎設施的核心,負責處理模型權重、提示內容與客戶資料。研究人員指出,要是攻擊者能觸及這些ZeroMQ通訊端點並成功利用漏洞,不僅可能在單一推論節點上執行任意程式,還可能在GPU叢集中橫向移動,進一步竊取模型與機敏資料,甚至比照ShadowRay攻擊活動安裝加密貨幣挖礦程式,長期占用運算資源。

Meta已將Llama Stack更新至0.0.41之後版本,移除不安全的pickle使用,vLLM則透過改以較新的V1引擎作為預設,降低舊有通訊路徑被濫用的風險,而Nvidia在TensorRT-LLM 0.18.2版中修補CVE-2025-23254,強化Python執行元件在IPC中的驗證流程,Modular Max Server也已針對CVE-2025-60455推出修正。

而研究人員指出,微軟的研究框架Sarathi-Serve被點名目前仍未修補,SGLang目前則被評估僅有部分修正。

不過,即使升級到安全版本,當ZeroMQ通訊埠仍暴露在網際網路上,或在內部網路中缺乏適當存取控管,風險依舊存在。研究人員建議除了套用各家最新修補外,也應檢查是否仍在使用pickle處理不可信輸入,盡量改採JSON或其他安全格式,並對ZMQ通訊加上認證與加密,避免使用tcp://*這類綁定所有網路介面的設定,同時限制僅允許必要系統連線。

熱門新聞

Advertisement