
美國艾倫人工智慧研究所Ai2發表Bolmo 7B(70億)與Bolmo 1B(10億)兩款新語言模型,改以UTF-8位元組作為輸入與生成單位,並在模型內部動態決定文字分段,降低對既有子詞分詞器(Subword Tokenizer)與固定詞彙表的依賴。研究人員指出,子詞分詞雖普遍,但在字元層理解、空白與罕見字詞處理,以及多語支援公平性等面向仍有代價,因此嘗試以位元組層設計補足。
多數大型語言模型仍仰賴子詞分詞機制,將原始文字轉換為模型可處理的表示形式,雖有效降低序列長度與計算成本,但也帶來字元層理解不足、空白與拼寫處理不穩定,以及對不同語言支援不均等問題。Ai2指出,位元組層模型可直接處理原始文字結構,有助於改善傳統分詞方法的限制,但過去多半需要從零開始訓練,成本高昂,難以跟上主流模型的演進速度。
與多數從零訓練的位元組模型不同,Bolmo採位元組化既有模型的策略。Ai2以公開的Olmo 3 7B檢查點為基礎製作Bolmo 7B,並將Olmo 2 1B改造成Bolmo 1B,透過較短的追加訓練把原本子詞模型的骨幹與能力轉為可在UTF-8位元組層運作的架構。Ai2稱Bolmo是首批完全開放的位元組層語言模型,並表示在多數任務上可與同級子詞模型相當,同時在強調字元處理的基準測試上呈現明顯提升。
Ai2公開模型檢查點與相關資源,並把Bolmo放進其Olmo生態系,包含以Dolma 3資料混合為主要訓練來源,搭配開放程式碼資料與少量字元導向資料。官方也提供技術報告、資料與程式碼,讓外界可重現把強勢子詞模型轉為位元組模型的流程。
研究人員進一步說明,Bolmo會先在模型內以輕量的局部編碼器處理位元組,再由邊界預測器動態決定分段位置,將可變長度的區塊(Patch)送入沿用的Transformer骨幹處理。該動態池化(Pooling)設計用來在位元組數量增加時維持推論效率,並可透過調整平均每個區塊包含的位元組數,在速度與表現之間做取捨。
Ai2同時示範,Bolmo可繼承既有Olmo 3的後訓練成果,例如指令遵循能力,透過權重合併方式移植,降低導入位元組模型的額外成本。
熱門新聞
2025-12-12
2025-12-16
2025-12-15
2025-12-15
2025-12-15
2025-12-15
2025-12-16
2025-12-15