高雄大學資工系團隊打造一款生成式AI應用平臺Kuwa GenAI OS,提供使用介面,能支援多種地端和雲端LLM,如GPT-3.5/4、Gemini-Pro、Gemma、LLaMA2、OLMo等。

圖片來源: 

螢幕截圖

重點新聞(0322~0329)

 Kuwa     生成式AI     TAIDE  

高雄大學資工系開源生成式AI應用平臺

光有大型語言模型(LLM)還不夠,還得要有一套應用介面才能發作最佳效果,就像是機器人大腦得要有身體和四肢一樣。高雄大學資工系系友就打造一款名為Kuwa GenAI OS的生成式AI應用平臺,提供使用介面、可支援多種生成式AI應用,就像是機器人的身體和四肢,能讓開發者串接多種LLM,來打造所需的生成式AI應用。

團隊表示,他們將Kuwa系統定位為平臺,可讓使用者串接所需的模型,並開發上層的生成式AI應用。目前,Kuwa系統可串接多種常見的地端和雲端模型,像是GPT-3.5/4、Gemini-Pro、Gemma、LLaMA2、OLMo、Code LLaMA、Taiwan LLaMA、Breeze等,之後國科會TAIDE模型開源,也能支援串接。尤其,Kuwa系統還能用來管理、分配多臺機器上的模型資料,來支援具備權限控制的多使用者生成式AI應用情境。

根據簡介,Kuwa GenAI OS能提供群聊、引用、完整Prompt列表的匯入/匯出和分享等功能,還能靈活組合提示(Prompt)、RAG、Bot、模型、硬體/GPU等元件,來滿足應用所需。此外,它也支援各種執行環境,包括虛擬主機、筆記型電腦、個人電腦、地端伺服器和公私雲端。Kuwa系統是在國科會TAIDE計畫的支持下投入開發,團隊日前也成立Kuwa開源社群,盼更多人投入,來促進生成式AI應用發展。(詳全文)

  語音AI     Hume AI     EVI  

Hume AI揭露一款富有人味的語音AI

最近,由Google前研究員Alan Cowen成立的AI新創Hume AI,預覽一款很特別的對話式AI系統Empathic Voice Interface(EVI),可理解使用者的語氣,並以相應的語氣回覆,就像是在跟人說話一樣。Hume AI表示,EVI透過數百萬人類對話訓練而成,開發者目前可透過Hume API將EVI整合至各種應用程式中。

EVI有幾種特色,包括能以與人類相近的語氣回覆,還能根據使用者的情緒來調整語氣,也能偵測使用者語氣,來判斷對話是否結束。同時,EVI也能自然地從對話中斷處,繼續新一輪對話。此外,EVI還能提供語音對話的文字轉錄,以及文字轉語音功能,也能整合任何語言模型。Hume AI預計在4月正式發布EVI。(詳全文)

  工程師    Devika      Devin  

另一個AI工程師Devika來了,雖然還不及Devin

繼AI工程師Devin橫空出世後,最近出現另一個AI工程師Devika,能根據人類指令拆分任務,並進行研究、寫程式來完成目標。Devika的開發者是印度AI新創stitionai的創辦人Mufeed VH,他表示,Devika的能力雖然還不及Devin,但透過開源可讓它更進步。

Devika的核心功能有幾種,包括可透過Ollama來使用Claude 3、GPT-4、GPT-3.5或本地端的大型語言模型(LLM),也能使用規畫和推理演算法,以及上下文關鍵字提取、瀏覽網頁,還有用多種程式語言來編寫程式。Devika的目標是要用AI來改變工程師開發軟體和除錯的方式,要來簡化流程和提高效率。Mufeed VH還表示,Devika可自動執行自己寫的程式,並在遇到錯誤的時候自動修復問題,不需人類工程師干預。(詳全文)

  OpenAI     語音生成     Voice Engine  

15秒樣本就能生成逼真語音,OpenAI發表語音生成模型

OpenAI最近揭露一款語音生成模型Voice Engine,可根據任一15秒的語音樣本,生成一段自然的語音,而且富有感情。OpenAI表示,Voice Engine專案在2022年底就已啟動,目標是要為自家的文字轉語音API、ChatGPT語音和朗讀功能中的預設語音提供支援。

不過,擔心避免遭到濫用,OpenAI並未對外開放這款模型。他們自2023年底開始與一小群值得信賴的合作夥伴測試模型,目前也有不少進展,比如可用來加強教育,為兒童提供閱讀協助,又或是用於翻譯,模型能將影片和Podcast翻譯成多種語言,並保留口音特色。另一個例子則與社區健康有關,可用來強化偏遠地區醫療溝通和諮詢服務,甚至,還有一家神經科學研究所用Voice Engine來輔助言語障礙患者表達。(詳全文)

  AR     Meta     室內場景  

Meta揭露AR新技術,用ML快速重建3D室內場景

最近,Meta發表一款場景生成模型SceneScript,不需依賴寫死的規則,透過機器學習就能直接推斷房間的幾何形狀,並轉換為建築元素的近似值。這個方法簡化了房間3D建模的程式,還更加輕巧,只需幾個位元組記憶體,就能產生清晰且完整的幾何形狀,而且具備可解釋性,使用者可簡單閱讀和編輯這些表示。

為開發SceneScript,團隊先是打造一個Aria室內環境合成資料集,包括10萬個完全獨特的室內環境,每個環境都使用SceneScript語言進行描述。過程中,團隊用Aria眼鏡來收集室內環境資料,並用這些資料模擬出不同的室內環境。由於所有模擬訓練都不涉及個人資料,因此模型訓練都能確保隱私,而且在訓練後,也能使用Aria眼鏡來驗證模型。

SceneScript的優點在於可擴展性,只要在Aria合成環境資料集中的「門」添加附加參數,就能訓練來預測物理環境中門開啟和關閉的程度。此外,透過在架構語言添加新特徵,SceneScript還能準確預測物體的位置,並進一步將這些物件拆解成組成元件,像是沙發的墊子、椅腳和扶手,設計師可用來創造真正適用於各種物理環境的增強實境內容。(詳全文)

  Neo4j     微軟     資料分析  

強化資料分析和AI應用,微軟旗下服務整合Neo4j圖資料庫

Neo4j聯手微軟,在微軟旗下Azure OpenAI服務和Fabric分析平臺整合Neo4j圖資料庫功能,用戶可更好地處理結構化與非結構化資料,從中發現資料隱藏的模式,用來強化生成式AI應用程式。

Azure OpenAI與Neo4j的整合,在架構上可分為知識的擷取和使用。在資料擷取上,由Azure OpenAI處理非結構化資料,將這些資料存到圖資料庫中,用戶可用Neo4j的查詢工具,來擷取有用的分析結果,而來源資料可留存在Fabric、Azure Blob儲存或其他位置。而在知識的使用上,用戶同樣可透過Azure OpenAI服務,以自然語言查詢,即便沒有圖資料庫專業知識,也能輕易上手。(詳全文)

  DBRX     LLM     Databricks  

Databricks開源通用大型語言模型DBRX

AI業者Databricks最近開源一款通用大型語言模型(LLM)DBRX,號稱在各式標準的基準測試上超越坊間所有開源模型,也在大多數的基準測試上擊敗GPT 3.5。

DBRX以Transformer解碼器為基礎,採混合專家(MoE)架構,具1,320億個參數,其中360億個經常處於活動狀態。該模型用12T Token的文字和程式碼資料上進行預訓練。相較市上的LLaMA2-70B、Mixtral和Grok-1等開源模型,DBRX在語言理解(MMLU)、程式設計(HumanEval)和數學邏輯(GSM8K)等基準測試上的表現明顯勝出。此外,DBRX在上述3項基準測試中也贏過GPT 3.5。DBRX目前可支援英文、法文、西班牙文和德文,不過,要執行DBRX至少得具備4個Nvidia H100 GPU或其它GPU,光一個H100就得花費數萬美元,對許多開發者或個人來說是遙不可及的。(詳全文)

  行銷     Adobe     生成式AI  

瞄準行銷內容需求,Adobe推出GenStudio預覽版

日前Adobe在年度大會上,發表一款預覽版行銷人員專用的GenStudio產品,主打用生成式AI來優化內容供應鏈。進一步來說,GenStudio涵蓋跨通路行銷所需的各種工具,以生成式AI為基礎,可讓企業用來快速尋找和生成資產、打造各種作品,還能根據即時的內容效能洞察來優化體驗。比如,行銷人員可針對品牌、客戶角色及產品描述訓練AI,來產生符合需求的文案和圖像,或用AI來審查內容。

GenStudio可分為3大特點,分別是工作流程與規畫、創造與生產、啟用與遞送,而每一特點都由不同工具支援,可整合、流暢地執行內容供應鏈。雖然GenStudio仍在預覽階段,但試用過的企業Orvis發現,制定專案計畫的時間減少75%,JLL創意團隊在兩年內的交付成果增加了250%,T-Mobile在不增加人力的前提下活動產出提高了47%。GenStudio預計今年全面上市。(詳全文)

圖片來源/Kuwa系統團隊、Mufeed VH、Meta、Databricks

  AI近期新聞 

1. 美國要求每個聯邦機構設立AI長

2. Claude 3 Opus模型登上LMSYS Chatbot Arena排行榜榜首

3. 樂天開源懂日文和英文的語言模型RakutenAI-7B

資料來源:iThome整理,2024年4月

熱門新聞

Advertisement