Databricks開源通用大型語言模型DBRX

圖片來源:

GitHub

資料暨AI業者Databricks周三（3/27）開源了通用大型語言模型（LLM）DBRX，宣稱DBRX在各式標準的基準測試上超越了坊間所有的開源模型，也在大多數的基準測試上擊敗GPT 3.5。

DBRX是個基於Transformer解碼器的大型語言模型，採用細粒度的混合專家（Mixture of Experts，MoE）架構，具備1,320億個參數，當中有360億個經常處於活動狀態，於12T Token的文字與程式碼資料上進行預訓練。

相較於市場上既有的LLaMA2-70B、Mixtral和Grok-1等開源模型，DBRX在語言理解（MMLU）、程式設計（HumanEval）及數學邏輯（GSM8K）等基準測試上的表現明顯勝出。此外，DBRX在上述3項基準測試中亦凌駕OpenAI的GPT 3.5。

若比較更高階的GPT 4、Claude 3及Gemini 1.0 Pro，那麼DBRX在語言理解上贏過Gemini 1.0 Pro，在程式設計上贏過GPT 4與Gemini 1.0 Pro。

Databricks亦強調，DBRX是個採用MegaBlocks研究與開源專案的混合專家（MoE）模型，得以實現快速的Token處理能力，也相信未來將有更多的開源模型採用MoE架構，因為MoE可用來訓練更大的模型，並以更快的吞吐量來提供服務。

Databricks生成式AI副總裁Naveen Rao 向《TechCrunch》透露，該公司花了兩個月及1,000萬美元的成本來訓練DBRX，而經過訓練的DBRX可提供各種主題，現已針對英文進行優化，但也支援法文、西班牙文與德文。

不過，《TechCrunch》也指出，一般人並不容易使用DBRX，因為要執行DBRX至少必須配備4個Nvidia H100 GPU或其它GPU，且光一個H100的成本就高達數萬美元，對許多開發者或個人企業家而言是遙不可及的。

熱門新聞