重點新聞(0202~0208)

localllm     Google     生成式AI  

沒GPU也沒關係!Google開源新工具,用CPU就能開發GenAI App

Google最近開源名為localllm的一系列工具組和函式庫,能讓開發者使用地端的CPU資源,就能開發生成式AI App,就算沒有GPU也沒關係。進一步來說,開發者可在Google雲端的全託管開發環境Cloud Workstations中使用localllm,透過命令列工具(Command line utility)來從Hugging Face存取量化模型,並在Cloud Workstations中穩定執行,不需要GPU資源。

Google指出,這些量化模型使用低精度資料類型,進而提高整體效能、降低記憶體需求,並實現更快速的模型推論。他們認為,開發者在Cloud Workstations中使用localllm和量化模型開發GenAI App,可提高靈活性、擴展性和良好的成本效益,還能確保資料安全,因為localllm可降低資料傳輸和第三方存取風險,開發者在本地端CPU和記憶體執行LLM,也能掌控敏感資料。(詳全文)

  成本     K8s     Kubecost  

K8s成本管理工具大更新,還用AI預測成本確保不超額

Kubernetes成本管理公司Kubecost最近推出了同名產品Kubecost 2.0版本。這個新版提升大規模效能100倍,不只提供視覺化頁面,來讓使用者監控所有流量成本,還透過AI來預測用戶的支出。就效能提升來說,Kubecost 2.0採用新的API來提高後端效能,資源效率也提高為3倍,讓使用者在處理大規模Kubernetes環境時,可更靈敏操作Kubecost API和UI,且還能查詢3年以上的歷史資料。

同時,用戶能以更直覺的方式察看Kubernetes和雲端網路成本,新版Kubecost網路監控提供Pod、命名空間、叢集和雲端服務的成本可見性,以接近即時的速度,來視覺化呈現基礎設施任一部分的成本。此外,Kubecost 2.0整合機器學習技術,新預測模型能利用過去的Kubernetes和雲端資料,來預測成本波動,並且進行資源分配。用戶可透過主要監控儀表板的分配、資產和雲端成本探索工具,預測未來特定日期範圍的支出成本。成本預測還有一個異常預測功能,可用來偵測實際支出偏離Kubecost預測支出的時間點,找出意外支出狀況,並迅速解決超額問題。(詳全文)

  文字轉圖像     行動裝置     MobileDiffusion  

行動裝置也能快速執行!Google揭露文字轉圖像模型MobileDiffusion

Google開發一套可在行動裝置上,以次秒(Subsecond)速度執行的文字轉圖像模型MobileDiffusion,該模型是一種高效的擴散模型,在iOS和Android高階裝置上,能在半秒內生成512x512的高品質圖像。MobileDiffusion比其他圖像生成模型小了許多,只有5.2億參數,特別適用於行動裝置。

MobileDiffusion遵循潛在擴散模型的設計,具有文字編碼器、擴散UNet和圖像解碼器。其中,團隊使用了適用於行動裝置的小模型CLIP-ViT/L14,作為MobileDiffusion的文字編碼器,並鎖定擴散UNet和圖像解碼器來改善效率。他們以2種方法來提高擴散UNet的效率,首先是在模型瓶頸處,也就是資訊最集中的地方,使用更多的Transformer區塊來降低計算量,第二是使用輕量級可分離卷積,來減少計算量。至於圖像解碼器,他們則訓練變分自編碼器(VAE)簡化圖像表示,使圖像資訊縮小至原圖八分之一,減少儲存和計算需求,並用簡化版的解碼器提高效能。(詳全文)

  微軟    Copilot      圖像創作  

微軟更新Copilot圖像創作功能

Copilot更新了,微軟這次的更新範圍包括copilot.microsoft.com網站,還有iOS與Android應用商店中的Copilot應用程式。使用者將會看到更簡潔的外觀和使用體驗,此外,微軟還新增了建議提示詞輪播功能,來更好地呈現Copilot功能。

同時,微軟也在Copilot添加更多的圖像創作功能,比如使用Designer功能,不僅能創建圖像,現在還能在Copilot內直接進行線上圖像編輯,不中斷創作工作流程。這些圖像編輯還包括突出顯示特定物體,無論是強化顏色、使其更醒目,或是模糊圖像背景讓主題更突出,甚至使用特效重新建立圖像,都能完成。(詳全文)

  蘋果     MGIE     圖片編修  

蘋果開源圖片編修AI模型MGIE

繼去年公布多模態AI模型Ferret後,蘋果最近又開源可根據自然語言提示編修圖片的多模態AI模型MGIE,可更精確修圖或改良圖片。這個AI模型由蘋果和加州大學聖塔巴巴拉分校研究人員合作開發,MGIE的意思是以多模態大語言模型(MLLM)導引圖片編輯(MLLM-Guided Image Editing),目的是要解決現有AI圖片編輯模型的問題。

研究員說明,以指令為基礎的圖片編輯AI模型,可根據自然語言指令操控圖片,而無需精細描述或遮罩。但人類下的指令往往太短,現有的AI方法無法理解。但MLLM可跨模態理解,能生成視覺回應,於是蘋果團隊以LLaVA為基礎,開發了MGIE,能從人類提示得出表現指令,並提供清楚而明確的圖片編輯指引。例如,當使用者輸入「讓天空更藍」的文字,MGIE則會推出「讓天空部份的飽和感增加20%」。經完整的訓練,MGIE能同時產生視覺化想像,並進行圖片像素的操控。(詳全文)

  GNN     Google     函式庫  

Google釋出可大規模建置GNN的函式庫

Google發布TensorFlow GNN 1.0,簡稱TF-GNN,是一個可用於大規模建立圖神經網路(GNN)的函式庫,可支援使用者在機器學習框架TensorFlow中建立和訓練圖模型,以及從龐大資料儲存中擷取輸入圖(Graph)。

進一步來說,TF-GNN是專為處理異構圖設計的工具。異構圖是指圖中的節點和邊,代表不同類型的物件和關係,在TensorFlow中,異構圖會被封裝成一個稱為tfgnn.GraphTensor的物件,開發者可透過高階的Python類神經網路函式庫Keras API中的Layers物件操作,或直接使用tfgnn.GraphTensor原始類型,來定義GraphTensor的可訓練轉換。這代表,開發者可像設計一般神經網路層那樣設計和訓練GNN模型,來處理和學習圖資料的複雜結構和特徵,而TF-GNN讓這些工作變得直覺和方便。(詳全文)

  微軟     DirectML     NPU  

微軟預覽DirectML新支援功能

最近,微軟宣布推出DirectML對神經處理單元(NPU)加速的開發者預覽版。這個預覽版可支援特定模型,在搭載Intel Core Ultra處理器和AI Boost功能的Windows 11裝置上執行,讓應用程式可更快地處理語音辨識、圖像處理等AI任務。

DirectML是一種低階API,能為硬體供應商提供通用抽象層,讓應用程式存取機器學習加速器,適用於所有DirectX 12相容裝置,如GPU和NPU。而NPU是一種專為機器學習工作負載設計的處理單元,適用於計算密集、不需要圖型介面互動的工作。目前DirectML對NPU的支援,僅適用於搭載Intel Core Ultra處理器的裝置。(詳全文)

  Google     Gemini     One AI  

Google Bard改名為Gemini

Google在2月8日正式宣布將Bard改名為Gemini,同時也揭露全新付費版本Gemini Advanced和結合2TB雲端硬碟的Google One AI Premium方案。進一步來說,Gemini聊天機器人有2個版本,一是免費AI聊天機器人,二是全新付費版本Gemini Advanced。其中,Gemini Advanced主打以最強大AI模型版本Ultra 1.0為底層,號稱是首個在大量多任務語言理解(MMLU)上超越人類專家的AI模型,能理解57種主題知識,包括數學、物理、歷史、法律、醫學和倫理學等。

Gemini模型將支援Workspace和Google Cloud等Google服務。隨同品牌變更,Workspace AI助理Duet AI將改名為Gemini for Workspace,即將推出的全新Google One AI進階版方案,可讓消費者直接在Gmail、Docs、Sheets、Slides與Meet免費使用Gemini。此外,Google Cloud的Duet AI也將改名Gemini,Google也計畫近期進一步公布Gemini在開發和Cloud方面的新功能。(詳全文)

圖片來源/Kubecost、微軟、Google、蘋果

  AI近期新聞 

1. Nvidia、微軟、OpenAI等200餘業者加入美政府號召的AI安全同盟

2. VS Code現在支援Hey Code語音指令

3. OpenAI將標記DALL·E 3輸出圖像為AI生成內容

資料來源:iThome整理,2024年2月

熱門新聞

Advertisement