美國非營利研究機構Ai2發表新一代語言模型家族Olmo3,主打真正開源的思考模型。相較多數只釋出最終權重的模型,Olmo3從訓練資料、程式碼、評測流程,到各階段檢查點與用來回溯推理過程的工具都公開,讓外部團隊可以完整重現與延伸這套模型。

Olmo3家族提供70億(7B)與320億(32B)參數兩種大小的模型,所有模型都以支援約6.5萬Token上下文的基礎模型Olmo3-Base為基礎,再依用途分化出思考、對話與強化學習版本。Olmo3-Think在此基礎加入多步推理訓練,用於產生可檢視的思考步驟,Olmo3-Instruct則強化對話、指令跟隨與工具使用。Olmo3-RL Zero針對強化學習研究打造,提供多個領域的RL檢查點。開發者可直接採用Instruct或Think,也能從Base或任一訓練階段接手,把自家資料加入流程。

Olmo3家族中最具代表性的是32B等級的思考模型Olmo3-Think,該模型在回答時會產生中間推理步驟,並可搭配OlmoTrace把推理過程回溯到可能相關的訓練資料,讓研究者檢視模型為何做出某個判斷。依Ai2公布的評測結果,Olmo3-Think 32B在MATH、BigBench Hard、HumanEvalPlus等數學與程式推理基準上,多數指標逼近Qwen3 32B與Qwen3 VL 32B Thinking,同時明顯領先Gemma3 27B Instruct與部分同級模型。

Ai2將32B Base稱為目前最強的完全開放基礎模型,也就是訓練資料、程式碼與權重都能取得。與Marin 32B、Apertus 70B等開源模型相比,Olmo3-Base在程式開發、閱讀理解、數學解題與長上下文任務上多數指標領先,與Qwen2.5 32B、Gemma3 27B與Llama3.1 70B則為相近的實力,並具有處理長報告與技術文件的能力。

之所以Olmo3稱得上真開源,是因為Ai2連同資料與工具一併釋出。Olmo3的預訓練是從Dolma3語料庫擷取資料來進行,該語料庫規模約9.3兆Token,來源涵蓋網頁、學術PDF、程式碼庫與數學題解,Ai2從中組成Dolma3 Mix、Dolma3 Dolmino與Dolma3 Longmino等不同階段的訓練組合,後訓練則以Dolci資料套件支援推理、工具使用與強化學習,這些配方與資料集都在開放授權下公開,並說明資料篩選與移除重複資料的方式。

熱門新聞

Advertisement