AI趨勢周報第248期：高雄大學開源生成式AI應用平臺Kuwa GenAI OS

高雄大學資工系團隊打造一款生成式AI應用平臺Kuwa GenAI OS，提供使用介面，能支援多種地端和雲端LLM，如GPT-3.5/4、Gemini-Pro、Gemma、LLaMA2、OLMo等。

圖片來源:

螢幕截圖

重點新聞(0322～0329)

Kuwa 生成式AI TAIDE

高雄大學資工系開源生成式AI應用平臺

光有大型語言模型（LLM）還不夠，還得要有一套應用介面才能發作最佳效果，就像是機器人大腦得要有身體和四肢一樣。高雄大學資工系系友就打造一款名為Kuwa GenAI OS的生成式AI應用平臺，提供使用介面、可支援多種生成式AI應用，就像是機器人的身體和四肢，能讓開發者串接多種LLM，來打造所需的生成式AI應用。

團隊表示，他們將Kuwa系統定位為平臺，可讓使用者串接所需的模型，並開發上層的生成式AI應用。目前，Kuwa系統可串接多種常見的地端和雲端模型，像是GPT-3.5/4、Gemini-Pro、Gemma、LLaMA2、OLMo、Code LLaMA、Taiwan LLaMA、Breeze等，之後國科會TAIDE模型開源，也能支援串接。尤其，Kuwa系統還能用來管理、分配多臺機器上的模型資料，來支援具備權限控制的多使用者生成式AI應用情境。

根據簡介，Kuwa GenAI OS能提供群聊、引用、完整Prompt列表的匯入/匯出和分享等功能，還能靈活組合提示（Prompt）、RAG、Bot、模型、硬體/GPU等元件，來滿足應用所需。此外，它也支援各種執行環境，包括虛擬主機、筆記型電腦、個人電腦、地端伺服器和公私雲端。Kuwa系統是在國科會TAIDE計畫的支持下投入開發，團隊日前也成立Kuwa開源社群，盼更多人投入，來促進生成式AI應用發展。（詳全文）

語音AI Hume AI EVI

Hume AI揭露一款富有人味的語音AI

最近，由Google前研究員Alan Cowen成立的AI新創Hume AI，預覽一款很特別的對話式AI系統Empathic Voice Interface（EVI），可理解使用者的語氣，並以相應的語氣回覆，就像是在跟人說話一樣。Hume AI表示，EVI透過數百萬人類對話訓練而成，開發者目前可透過Hume API將EVI整合至各種應用程式中。

EVI有幾種特色，包括能以與人類相近的語氣回覆，還能根據使用者的情緒來調整語氣，也能偵測使用者語氣，來判斷對話是否結束。同時，EVI也能自然地從對話中斷處，繼續新一輪對話。此外，EVI還能提供語音對話的文字轉錄，以及文字轉語音功能，也能整合任何語言模型。Hume AI預計在4月正式發布EVI。（詳全文）

工程師 Devika Devin

另一個AI工程師Devika來了，雖然還不及Devin

繼AI工程師Devin橫空出世後，最近出現另一個AI工程師Devika，能根據人類指令拆分任務，並進行研究、寫程式來完成目標。Devika的開發者是印度AI新創stitionai的創辦人Mufeed VH，他表示，Devika的能力雖然還不及Devin，但透過開源可讓它更進步。

Devika的核心功能有幾種，包括可透過Ollama來使用Claude 3、GPT-4、GPT-3.5或本地端的大型語言模型（LLM），也能使用規畫和推理演算法，以及上下文關鍵字提取、瀏覽網頁，還有用多種程式語言來編寫程式。Devika的目標是要用AI來改變工程師開發軟體和除錯的方式，要來簡化流程和提高效率。Mufeed VH還表示，Devika可自動執行自己寫的程式，並在遇到錯誤的時候自動修復問題，不需人類工程師干預。（詳全文）

OpenAI 語音生成 Voice Engine

15秒樣本就能生成逼真語音，OpenAI發表語音生成模型

OpenAI最近揭露一款語音生成模型Voice Engine，可根據任一15秒的語音樣本，生成一段自然的語音，而且富有感情。OpenAI表示，Voice Engine專案在2022年底就已啟動，目標是要為自家的文字轉語音API、ChatGPT語音和朗讀功能中的預設語音提供支援。

不過，擔心避免遭到濫用，OpenAI並未對外開放這款模型。他們自2023年底開始與一小群值得信賴的合作夥伴測試模型，目前也有不少進展，比如可用來加強教育，為兒童提供閱讀協助，又或是用於翻譯，模型能將影片和Podcast翻譯成多種語言，並保留口音特色。另一個例子則與社區健康有關，可用來強化偏遠地區醫療溝通和諮詢服務，甚至，還有一家神經科學研究所用Voice Engine來輔助言語障礙患者表達。（詳全文）

AR Meta 室內場景

Meta揭露AR新技術，用ML快速重建3D室內場景

最近，Meta發表一款場景生成模型SceneScript，不需依賴寫死的規則，透過機器學習就能直接推斷房間的幾何形狀，並轉換為建築元素的近似值。這個方法簡化了房間3D建模的程式，還更加輕巧，只需幾個位元組記憶體，就能產生清晰且完整的幾何形狀，而且具備可解釋性，使用者可簡單閱讀和編輯這些表示。

為開發SceneScript，團隊先是打造一個Aria室內環境合成資料集，包括10萬個完全獨特的室內環境，每個環境都使用SceneScript語言進行描述。過程中，團隊用Aria眼鏡來收集室內環境資料，並用這些資料模擬出不同的室內環境。由於所有模擬訓練都不涉及個人資料，因此模型訓練都能確保隱私，而且在訓練後，也能使用Aria眼鏡來驗證模型。

SceneScript的優點在於可擴展性，只要在Aria合成環境資料集中的「門」添加附加參數，就能訓練來預測物理環境中門開啟和關閉的程度。此外，透過在架構語言添加新特徵，SceneScript還能準確預測物體的位置，並進一步將這些物件拆解成組成元件，像是沙發的墊子、椅腳和扶手，設計師可用來創造真正適用於各種物理環境的增強實境內容。（詳全文）

Neo4j 微軟 資料分析

強化資料分析和AI應用，微軟旗下服務整合Neo4j圖資料庫

Neo4j聯手微軟，在微軟旗下Azure OpenAI服務和Fabric分析平臺整合Neo4j圖資料庫功能，用戶可更好地處理結構化與非結構化資料，從中發現資料隱藏的模式，用來強化生成式AI應用程式。

Azure OpenAI與Neo4j的整合，在架構上可分為知識的擷取和使用。在資料擷取上，由Azure OpenAI處理非結構化資料，將這些資料存到圖資料庫中，用戶可用Neo4j的查詢工具，來擷取有用的分析結果，而來源資料可留存在Fabric、Azure Blob儲存或其他位置。而在知識的使用上，用戶同樣可透過Azure OpenAI服務，以自然語言查詢，即便沒有圖資料庫專業知識，也能輕易上手。（詳全文）

DBRX LLM Databricks

Databricks開源通用大型語言模型DBRX

AI業者Databricks最近開源一款通用大型語言模型（LLM）DBRX，號稱在各式標準的基準測試上超越坊間所有開源模型，也在大多數的基準測試上擊敗GPT 3.5。

DBRX以Transformer解碼器為基礎，採混合專家（MoE）架構，具1,320億個參數，其中360億個經常處於活動狀態。該模型用12T Token的文字和程式碼資料上進行預訓練。相較市上的LLaMA2-70B、Mixtral和Grok-1等開源模型，DBRX在語言理解（MMLU）、程式設計（HumanEval）和數學邏輯（GSM8K）等基準測試上的表現明顯勝出。此外，DBRX在上述3項基準測試中也贏過GPT 3.5。DBRX目前可支援英文、法文、西班牙文和德文，不過，要執行DBRX至少得具備4個Nvidia H100 GPU或其它GPU，光一個H100就得花費數萬美元，對許多開發者或個人來說是遙不可及的。（詳全文）

行銷 Adobe 生成式AI

瞄準行銷內容需求，Adobe推出GenStudio預覽版

日前Adobe在年度大會上，發表一款預覽版行銷人員專用的GenStudio產品，主打用生成式AI來優化內容供應鏈。進一步來說，GenStudio涵蓋跨通路行銷所需的各種工具，以生成式AI為基礎，可讓企業用來快速尋找和生成資產、打造各種作品，還能根據即時的內容效能洞察來優化體驗。比如，行銷人員可針對品牌、客戶角色及產品描述訓練AI，來產生符合需求的文案和圖像，或用AI來審查內容。

GenStudio可分為3大特點，分別是工作流程與規畫、創造與生產、啟用與遞送，而每一特點都由不同工具支援，可整合、流暢地執行內容供應鏈。雖然GenStudio仍在預覽階段，但試用過的企業Orvis發現，制定專案計畫的時間減少75%，JLL創意團隊在兩年內的交付成果增加了250%，T-Mobile在不增加人力的前提下活動產出提高了47%。GenStudio預計今年全面上市。（詳全文）

圖片來源／Kuwa系統團隊、Mufeed VH、Meta、Databricks

AI近期新聞

1. 美國要求每個聯邦機構設立AI長

2. Claude 3 Opus模型登上LMSYS Chatbot Arena排行榜榜首

3. 樂天開源懂日文和英文的語言模型RakutenAI-7B

資料來源：iThome整理，2024年4月

熱門新聞