微軟WizardLM-2模型忘了做測試，上線不到2天就撤下

圖片來源:

微軟

微軟本周公布並開源最新一代大型語言模型WizardLM-2，最大版本效能超越GPT-4及Mistral，不過上線後很快就被移除，原因是發布前忘了做測試。

一年前，微軟以之前的大型語言模型為基礎開發出Wizard，周一微軟發布WizardLM-2，在複雜對話、多語言、推論和代理程式（agent）的效能都較前代提升。微軟並透過GitHub及Hugging Face公開，但周二微軟忽然無預警，也在未說明情況下刪除了所有專案文件及程式碼檔案，令一些已經或準備開始測試的開發人員感到錯愕。現在點入GitHub和Hugging Face都會顯示404錯誤訊息頁面。

微軟周三終於解釋原因，表示由於不太熟悉新的模型發布流程，在上線後發現他們忘了為WazardLM-2模型進行毒性測試（toxicity testing）。開發團隊目前正加緊完成測試，等完成後會儘速重新發布。

周一微軟公布WizardLM-2 LLM 7B、70B以及8x22B MoE三個版本。根據微軟稍早推文，微軟說明，相較Claude 3 Opus&Sonnet、GPT-4等LLM，WizardLM-2 8x22B是最先進的模型，根據內部以複雜任務的標竿測試，也是最佳開源LLM。WizardLM-2 70B具備最頂級推論能力，也是同等級模型（Mistral Medium&Large、Claude 2.1）中第一選擇。WizardLM-2 7B的效能也堪比規模大其10倍的開源模型。

AI模型競賽白熱化，Meta預告將在5月公布Llama 3首個版本，而OpenAI也預計今年夏天發表GPT-5。

熱門新聞