Meta釋出開放權重CWM，用世界模型強化程式碼生成能力

Meta研究世界模型對程式碼生成能力的提升，釋出開放權重326億參數（32.6 B）模型Code World Model（CWM），專門鎖定程式碼生成情境。與僅以靜態程式碼的訓練做法不同，CWM在預訓練與強化學習之間加入中期訓練（Mid-training），導入大量來自Python直譯器與容器化環境的觀察、動作軌跡，讓模型不只學會語法與範式，也能從實際執行過程推估狀態變化，具體提升錯誤定位與修補、長上下文程式分析以及多回合系統互動的效率與穩定性。

CWM的訓練目標是在可驗證情境中提升推理與規畫能力。其中，在中期訓練階段特別加入兩類可觀測的資料來源，其一是大量Python程式在容器中的記憶追蹤，其二是多回合代理與計算環境的互動軌跡。隨後以多任務、多回合的可驗證增強學習（RL）進行後訓練，讓模型能逐步模擬程式執行與錯誤修補過程，接近開發者日常的執行、觀察、修正的流程。

就基準測試成績來看，CWM在SWE-bench Verified 上，未啟用測試時擴展機制（Test-time Scaling，TTS）的單次作答正確率為53.9%，啟用後提升到65.8%，顯示在代理式工作流與TTS下有明顯的效能提升。在LiveCodeBench v5/v6分別為68.6/63.5，表現屬於開源模型前段水準，與Qwen3-Coder-32B、Devstral-1.1-24B互有領先。在數學任務中，Math-500達96.6%，屬於頂尖表現，但在AIME-24/25為76.0/68.2，落後於針對競賽題最佳化的Magistral與Qwen3系列模型。

整體來看，CWM並非全能第一，但在程式理解、錯誤修復與容器化執行這些工程導向的場景表現突出，要是目標為長上下文程式分析、可驗證修補與系統互動，CWM的世界模型訓練與TTS設計更具實用價值。

CWM的價值在於提供一個能觀察、推理、修正的實驗平臺，便於分析世界模型對程式碼生成與規畫的影響，並測試不同訓練階段對最終行為的貢獻。研究者可從釋出的各階段權重著手，評估中期訓練與增強學習在可驗證任務的效益，並觀察長上下文與多回合互動下的穩定性與可重現性。

熱門新聞