重點新聞(0929~1006)
Google DeepMind 機器人 通才
超大機器人資料集開源,涵百萬場景可訓練通才機器人
Google DeepMind聯手33間學術實驗室,將22種機器人累積執行的15萬項任務、527個技能、100多萬個場景資料彙整為標準化格式的資料集Open X-Embodiment,並開源出來,是目前該領域最大的資料集,可用來訓練通才機器人。
團隊指出,一直以來,開發者得根據不同任務、環境和機器人來個別訓練模型,甚至光是更改1個變數,就得從頭訓練。而他們發表的Open X-Embodiment就是要解決這個問題,團隊也用該資料集訓練2個機器人模型,一是用來控制機器人的Transformer模型RT-1-X,團隊測試發現,該模型執行任務的平均成功率,比專門設計的模型高出50%,如開門的表現更好。
另一個是視覺-語言-動作模型RT-2-X,可理解機器人看到和聽到的內容,不過,該模型訓練時不只用了資料集,也用了網路資料。經測試,RT-2-X比前代的機器人模型RT-1和RT-2更好,而且,2款機器人也能執行訓練時沒見過的任務。團隊分析,這是因為,模型的訓練資料更多樣化且跨機體,還能讓特定領域訓練的模型,泛化表現更好。為推進通才機器人領域的研究,Google DeepMind團隊開源資料集和模型,來供社群進行更多研究。(詳全文)
XGBoost 2.0 排名 記憶體
XGBoost 2.0.0來了,支援聯邦學習、優化排名任務能力
機器學習演算法XGBoost最近升級了,最新的XGBoost 2.0版不只修復重大錯誤,還支援聯邦式學習、外部記憶體優化和統一的device參數,企業可用來處理更複雜的資料、打造更好的推薦和排名應用。
XGBoost是表格等結構化資料機器學習任務的好用解法,新版刪除了多種CPU和GPU特定參數,改為統一的device參數,來簡化執行作業。同時,新版也將hist樹方法設為預設值,來提高模型訓練效率和一致性,另也新添支援GPU的近似樹方法,但該方法的效能還在優化中。此外,XGBoost 2.0改善了外部記憶體的訓練效能和使用,降低CPU記憶體使用量。
特別的是,XGBoost 2.0還針對學習排序任務,提供一系列新功能和參數,來改善排名表現。另外,2.0版也支援多種樹方法和垂直聯邦式學習應用,還為PySpark介面新添不少功能,如GPU預測、資料初始化優化、訓練日誌優化等。(詳全文)
LLM 長序列 StreamingLLM
高效框架StreamingLLM可處理無限長度文本
麻省理工學院、Meta AI和卡內基美隆大學聯手開發一套框架StreamingLLM,可讓語言模型處理無限長度的串流輸入,來解決語言模型部署在串流互動應用程式中,可能遇到的記憶體消耗與泛化長序列等問題。因為,LLM在解碼階段時,快取先前token的鍵值狀態會消耗大量記憶體,而主流的語言模型,無法泛化適用到超過訓練序列長度的長文本中。
Transformer架構模型,特別是使用注意力機制時,每個token會被映射為鍵和值兩種狀態,以用於注意力運算。這種設計能讓模型根據每個輸入token的上下文關係,來動態調整輸出結果。而StreamingLLM採取注意力下沉策略,透過保留注意力下沉token的鍵值,並與滑動窗口近期token鍵值結合,來確保注意力運算維持穩定。
團隊測試發現,StreamingLLM能讓Llama 2、MPT、Falcon和Pythia等模型處理高達400萬個token的文本。而且,使用專為注意力下沉設計的token進行預訓練時,還能進一步提高模型的串流運算效能。(詳全文)
MongoDB 生成式AI 開發
開發應用更容易了!MongoDB釋出生成式AI新功能
生成式AI深入各領域,MongoDB在原有開發工具中也導入生成式AI功能,如MongoDB Compass、Atlas Charts、Relational Migrator等,來提高開發者的生產力,加速打造應用程式。首先,MongoDB的GUI工具Compass新添AI功能,在1.40.0版公開預覽,用戶可用自然語言建立複雜的資料查詢和聚合。而Atlas Charts視覺化工具也新增了自然語言支援,開發者可用視覺化Atlas資料。
此外,MongoDB也用AI來協助開發者搬遷資料庫,當開發者要從原有資料庫轉而使用MongoDB時,官方提供一個Relational Migrator工具,能將現有SQL查詢和儲存程序,轉換使用MongoDB Query API語法,透過SQL查詢轉換功能,開發者就減少了手動建立MongoDB查詢的工作,加速專案轉移。不過,該功能目前為私人預覽。最後,MongoDB還推出Chatbot,來讓使用者用自然語言提問,Chatbot會提供參考文章、程式碼範例和各種相關資訊。(詳全文)
輕量化 GAN 低階裝置
開源新選擇,Mistral 7B輕巧、表現還比2倍大的Llama 2好
AI新創Mistral AI以Apache 2.0授權開源Mistral 7B語言模型,雖然只有73億參數,但在所有基準測試上,表現都比規模更大的語言模型。比如在常識推理、世界知識、閱讀理解、數學和程式碼等測試,不只明顯優於Llama 2 13B,也和Llama 34B打成平手,其編寫程式碼的能力還接近CodeLlama 7B,並在英文任務中表現良好。
Mistral 7B運用群組查詢注意力(GQA)來加速推理,還使用滑動視窗注意力(SWA),以更小的運算成本處理更長的序列。群組查詢注意力方法能分組多個查詢並同時處理,減少重複計算,進而提高推理速度、降低運算成本。滑動視窗注意力機制則限制模型,在神經網路的每一個層級,只能關注前面一定範圍的token,這個限制視窗會根據模型的層數向前滑動,在更高的層數中,模型能夠間接關注序列中更早出現的token,來降低記憶體需求,還能更高效處理長序列,Mistral 7B每層注意前4,096個隱藏狀態,能夠以線性計算成本提高處理速度,特別是序列長度為16,000時,速度快上2倍。(詳全文)
Llama 2 Long 長序列 Meta
Meta開源模型Llama 2 Long,可處理更長文章
LLM能處理多長的文章,成為新研究議題,Meta日前就發表新語言模型研究論文,提出可處理長文本的模型Llama 2 Long,最多可處理32,768個token。經基準測試評估,在長上下文任務方面,該模型比LLAMA 2還要好,且就700億參數版本表現比gpt-3.5-turbo-16k還要好。
Llama 2 Long以LLAMA 2為基礎,另以4,000億個token進行預訓練。這些token分割為許多較小序列,來訓練各種模型版本,如70億與130億參數的模型,就使用長度32,768個token的序列進行訓練,而340億與700億參數的模型,則使用長度為16,384個token的序列。之後,團隊以語言建模、合成任務等基準測試來評估模型表現,他們發現,與Llama 2相比,Llama 2 Long不只在長上下文任務有明顯進步,在標準短上下文任務(如程式開發、數學和知識基準),也有所改進。(詳全文)
AWS 生成式AI 視覺化
AWS一口氣釋出多項生成式AI新功能
最近,AWS在多個服務加入生成式AI新功能,像是全託管AI平臺Amazon Bedrock正式推出、提供更多強大的模型,而程式碼編寫助理Amazon CodeWhisperer新增客製化功能,商業智慧解決方案Amazon QuickSight Q也加入語言模型來簡化資料分析任務。
Amazon Bedrock是一個基礎模型API服務,用戶可透過API存取Amazon和AI21 Labs、Anthropic、Cohere、Meta、Stability AI等第三方的基礎模型,這次正式推出的同時,也增加Llama 2和Amazon Titan Embeddings等新模型供用戶選擇。此外,Amazon Bedrock還獲美國醫療資訊規範HIPAA認證且符合歐盟個資法GDPR,企業可用來開發醫療保健應用。再來,Amazon QuickSight Q讓用戶不需學習SQL或商業智慧工具,用自然語言就能查詢資料,現在更導入語言模型、推出Generative BI功能,來讓用戶以自然語言來詢問,快速建立資料視覺效果,如「top 10 products」。(詳全文)
LLM Google 生成式AI
Google釋出新工具,網站可拒絕內容成為AI訓練資料
繼OpenAI提出新方法來讓內容擁有者拒絕資料被爬蟲、成為生成式AI訓練資料後,Google最近也釋出新工具Google-Extended,來讓網站決定內容是否用來改善Bard和Vertex AI的生成式模型,只需透過robots.txt即可啟用該工具。
不少LLM都用公開網路資料來訓練模型,如OpenAI的GPT,但OpenAI先前打造網路爬蟲軟體GPTBot來蒐集網路資料、用來訓練模型,若出版商不同意,可在robots.txt中直接封鎖這些爬蟲。然而當時出版商無法直接封鎖來自Google的爬蟲軟體,因為這可能影響網站在Google搜尋結果中的能見度。因此Google特別設計Google-Extended,來供出版商使用。(詳全文)
圖片來源/Google DeepMind、MongoDB、Meta、AWS
AI近期新聞
1. Google揭露生成式AI加持的Google Assistant with Bard,但未說明上線時間
2. Meta聊天機器人Meta AI上線,會互動、生成圖片
資料來源:iThome整理,2023年10月
熱門新聞
2024-12-03
2024-11-29
2024-12-02
2024-12-02
2024-12-03