Google輕量級開放模型Gemma增加兩個新成員,其一是可用於程式碼完成以及指令遵循生成式任務的CodeGemma,另一個則是針對研究實驗效率最佳化架構的RecurrentGemma。

CodeGemma模型針對開發人員和企業的程式碼完成、生成和聊天工具使用情境開發,其提供了多種變體供用戶靈活應用,包括CodeGemma 7B預訓練變體,可用作專門處理程式碼完成和生成任務,還有針對指令調校的CodeGemma 7B變體,能用於程式碼聊天和指令遵循任務,另外CodeGemma 2B預訓練變體則適用於本地端快速程式碼完成。這些變體針對不同功能進行最佳化,以適應不同的使用場景和需求。

由於CodeGemma模型使用5,000億個,主要為英文的網頁文件、數學和程式碼Token進行訓練,Google提到,CodeGemma產生的程式碼不僅語法正確,而且語義也更具意義,有助於減少程式碼錯誤與除錯時間。CodeGemma同樣具有多語言能力,特別是Python、JavaScript、Java等各種熱門程式語言的程式碼編寫建議。

RecurrentGemma則可支援研究人員進行大批次的高效推理,採用循環神經網路和局部注意力機制提升記憶效率,Google提到,雖然RecurrentGemma在基準測試上成績與Gemma 2B模型相當,但是RecurrentGemma使用的記憶體量更少,在記憶體資源相對有限的裝置上,像是單GPU或是CPU電腦,能夠生成更長的樣本。

也因為RecurrentGemma較少的記憶體使用量,因此能夠以更大的批次規模進行推理,在生成長序列時,每秒能夠產生更多Token。Google指出,RecurrentGemma展示了一種非Transformer模型,也能實現高效能的深度學習研究進展。

CodeGemma和RecurrentGemma皆採用Google所開發的開源數值運算函式庫JAX建置,與JAX、PyTorch、Hugging Face Transformers、Gemma.cpp相容,支援包括筆記型電腦、桌上型電腦、Nvidia GPU和Google雲端TPU等裝置,進行本地實驗和雲端部署。此外,CodeGemma還相容於Keras、NvidiaNeMo、TensorRT-LLM、Optimum-Nvidia、MediaPipe與Vertex AI等市面上各種機器學習工具與框架。

熱門新聞

Advertisement