微軟人工智慧部門MAI發表首款語音生成模型MAI-Voice-1,已整合至Copilot Daily應用。(圖片來源/微軟)

微軟AI(Microsoft AI,MAI)周四(8/28)發表兩款自製AI模型,分別是語音生成模型MAI-Voice-1與基礎模型MAI-1-preview。前者已整合至Copilot Daily、Podcasts與Copilot Labs,後者則於LMArena進行公開測試,並將逐步導入Copilot文字應用。

其中的MAI-Voice-1在單個GPU上不到1秒就能生成1分鐘的語音,標榜擁有自然的聲線,帶有情感及抑揚頓挫,同時支援單人或多人對話場景。外界認為MAI-Voice-1的問世代表微軟想把文字助理進化成語音夥伴,讓使用者不只是看文字,而是能聽到更自然的交流。

MAI-1-preview則是個基於混合專家(MoE)結構的模型,可於不同任務中調用專有模型,藉由資料挑選及開源技術,它僅以1.5萬顆的Nvidia H100 GPU進行訓練,遠低於採用10萬顆以上GPU的xAI Grok。MAI-1-preview的專長為指令遵循,可用來回答日常問題。

MAI負責人Mustafa Suleyman在接受Semafor採訪時解釋,微軟是全球最大的公司之一,需要內部能力來建立頂級模型,原因包括AI在未來數十年的戰略重要性令微軟不得缺席,且微軟也想要更多的模型選擇權。Suleyman表示,未來微軟會持續強化與OpenAI的合作關係,這並不代表雙方的關係會疏遠或冷卻。

此外,MAI也已經著手開發下一代的MAI-2模型,它的規模更大,設定將有所調整,可能會利用微軟正在建立的超大型GB200/GB300叢集進行訓練。

熱門新聞

Advertisement