微軟發表兩款自製AI模型

微軟人工智慧部門MAI發表首款語音生成模型MAI-Voice-1，已整合至Copilot Daily應用。（圖片來源／微軟）

微軟AI（Microsoft AI，MAI）周四（8/28）發表兩款自製AI模型，分別是語音生成模型MAI-Voice-1與基礎模型MAI-1-preview。前者已整合至Copilot Daily、Podcasts與Copilot Labs，後者則於LMArena進行公開測試，並將逐步導入Copilot文字應用。

其中的MAI-Voice-1在單個GPU上不到1秒就能生成1分鐘的語音，標榜擁有自然的聲線，帶有情感及抑揚頓挫，同時支援單人或多人對話場景。外界認為MAI-Voice-1的問世代表微軟想把文字助理進化成語音夥伴，讓使用者不只是看文字，而是能聽到更自然的交流。

MAI-1-preview則是個基於混合專家（MoE）結構的模型，可於不同任務中調用專有模型，藉由資料挑選及開源技術，它僅以1.5萬顆的Nvidia H100 GPU進行訓練，遠低於採用10萬顆以上GPU的xAI Grok。MAI-1-preview的專長為指令遵循，可用來回答日常問題。

MAI負責人Mustafa Suleyman在接受Semafor採訪時解釋，微軟是全球最大的公司之一，需要內部能力來建立頂級模型，原因包括AI在未來數十年的戰略重要性令微軟不得缺席，且微軟也想要更多的模型選擇權。Suleyman表示，未來微軟會持續強化與OpenAI的合作關係，這並不代表雙方的關係會疏遠或冷卻。

此外，MAI也已經著手開發下一代的MAI-2模型，它的規模更大，設定將有所調整，可能會利用微軟正在建立的超大型GB200/GB300叢集進行訓練。

熱門新聞