AI推論框架存在ShadowMQ通訊漏洞，商用與開源多個推論引擎受影響

資安業者Oligo Security揭露，一系列影響人工智慧推論引擎的重大遠端程式碼執行漏洞，出現在Meta、Nvidia與微軟等業者使用的推論框架，以及vLLM、SGLang與Modular Max等開源專案，問題源頭被研究團隊統稱為ShadowMQ。這些框架多被用來支撐雲端LLM服務與企業內部人工智慧平臺，未更新修補，就有讓攻擊者在推論叢集上執行任意程式碼的風險。

ShadowMQ並不是某一個單一產品的錯誤，研究人員指出，多個框架使用ZeroMQ進行節點間通訊時，採用Python的pickle模組從網路Socket直接反序列化收到的物件，像是透過recv_pyobj這類方便函式，一旦該Socket對外開放，而且沒有任何驗證機制，攻擊者只要能連上通訊埠，就可能送入特製資料，在反序列化過程中觸發任意程式碼執行。

這個模式最早出現在Meta的Llama Stack，對應CVE-2024-50050，影響0.0.41之前版本。Meta現在已改用JSON等較安全的序列化方式，修補了該缺陷。不過，後續分析顯示，相同的通訊與反序列化寫法，已被複製到Nvidia的TensorRT-LLM、微軟的Sarathi-Serve、Modular Max Server，以及vLLM與SGLang等多個專案。

研究人員在追蹤程式碼脈絡時發現，部分檔案幾乎是整份搬過去，甚至在檔頭註明Adapted from vLLM，而Modular Max又從vLLM與SGLang同時借用邏輯。這代表各家維護團隊並非各自獨立犯錯，而是直接沿用其他專案程式碼，同時也複製了不安全寫法，研究團隊因此以ShadowMQ命名。

由於這些推論引擎往往位在人工智慧基礎設施的核心，負責處理模型權重、提示內容與客戶資料。研究人員指出，要是攻擊者能觸及這些ZeroMQ通訊端點並成功利用漏洞，不僅可能在單一推論節點上執行任意程式，還可能在GPU叢集中橫向移動，進一步竊取模型與機敏資料，甚至比照ShadowRay攻擊活動安裝加密貨幣挖礦程式，長期占用運算資源。

Meta已將Llama Stack更新至0.0.41之後版本，移除不安全的pickle使用，vLLM則透過改以較新的V1引擎作為預設，降低舊有通訊路徑被濫用的風險，而Nvidia在TensorRT-LLM 0.18.2版中修補CVE-2025-23254，強化Python執行元件在IPC中的驗證流程，Modular Max Server也已針對CVE-2025-60455推出修正。

而研究人員指出，微軟的研究框架Sarathi-Serve被點名目前仍未修補，SGLang目前則被評估僅有部分修正。

不過，即使升級到安全版本，當ZeroMQ通訊埠仍暴露在網際網路上，或在內部網路中缺乏適當存取控管，風險依舊存在。研究人員建議除了套用各家最新修補外，也應檢查是否仍在使用pickle處理不可信輸入，盡量改採JSON或其他安全格式，並對ZMQ通訊加上認證與加密，避免使用tcp://*這類綁定所有網路介面的設定，同時限制僅允許必要系統連線。

熱門新聞