螢幕截圖
重點新聞(1209~1215)
最近見到許多生成式AI應用,如ChatGPT、抖音母公司打造的文字轉影片AI:MagicVideo、Amazon開發的床邊故事生成功能Create with Alexa,甚至,Salesforce也開發一款AI摘要工具,可總結Slack重要訊息給使用者。除了這些創造性應用,最近也有不少新工具,如加州大學柏克萊分校的團隊,開發一款雲端資源調度工具,可幫使用者找出最省錢的雲端資源組合,並自動派送工作。此外,最新版DirectML PyTorch則開始支援熱門Transformer模型,微軟更新Azure語音功能,使用者可客製SST模型改善準確度。在應用方面,德意志銀行宣布要聯手Nvidia,來打造更符合監管的金融AI服務。
DeviantArt DreamUp 文生圖
跨雲跑ML太燒錢?加州大學開源雲端資源優化框架SkyPilot幫省錢
對大企業和小公司來說,用雲端資源來執行機器學習(ML)應用,都會遇到成本控管問題。加州大學伯克萊分校專攻即時邊緣運算的實驗室團隊RISELab就瞄準這個痛點,開發且開源一款框架SkyPilot,可用來管理跨雲廠商的ML工作負載,用單一使用者介面就能處理資料、安排工作,降低使用者支出。
進一步來說,SkyPilot演算法會根據運算工作需求,如CPU、GPU或TPU等用量,來找出最划算的雲端廠商、可用區域和範圍,接著自動安排執行該工作。目前,已有10幾家企業採用SkyPilot,有些用於GPU/TPU上訓練大型模型(得到3倍成本降低)、分散式超參數微調,也有使用者用數百個CPU實例來批次處理生醫運算,減少了6.5倍的開銷。此外,團隊也與Google合作,只要是申請到Google研究雲TRC計畫的使用者,就能立即使用SkyPilot。
目前,SkyPilot可用於3大公雲,包括AWS、GCP和微軟Azure,並提供命令列介面(CLI)和Python API。開發團隊表示,接下來將擴大框架,來支援更多雲端廠商。(詳全文)
吳恩達 ChatGPT 大型語言模型
吳恩達:ChatGPT類生成式AI能秀出不確定性警語會更好
OpenAI最近發布的大型生成式語言模型ChatGPT引起各界關注,能產出更連貫、更多細節和更有個性的文章,不只上知天文、下知地理,還能寫出故事、笑話、散文、詩歌、撩人臺詞和程式碼,發布短短幾天就吸引百萬名使用者註冊使用。ChatGPT的訓練方式與OpenAI年初打造的InstructGPT一樣,透過人工微調GPT-3,來避免產出有害內容。為此,他們還以監督式學習和強化學習來改善ChatGPT,特別是強化學習,是以人工排序的潛在回覆為標準,讓模型學習產出如人工排序般的文字段落,並給予獎勵。
吳恩達指出,ChatGPT雖能產出比GPT-3更優秀的回覆,也會針對一些問題給出「無法回答」的回覆,但就如其他大型語言模型一樣,ChatGPT也會產出信心十足但錯得離譜的回答。他認為,這類系統應該要呈現不同程度的信心,才不會誤導使用者或大眾。比如,Meta先前開發的檢索模型Atlas和DeepMind打造的RETRO模型,能鎖定可靠來源,將這些來源的文章合成為一個答案,並根據這些來源,改變回答的風格,彰顯一定程度的可靠性。吳恩達表示,如果能讓生成式算法,在不確定生成的答案是否正確時表達懷疑,就能大大降低產生假資訊的風險。(詳全文)
Salesforce 摘要 Slack
Salesforce開發AI摘要工具,可總結Slack重要訊息
Slack是企業常用的溝通工具,但1天下來,使用者可能累積了來自各頻道、DM直接對話框和回覆區的訊息,為幫助使用者快速掌握資訊,CRM龍頭廠商Salesforce打造一款AI摘要工具(AI Summarist),可以摘要Slack訊息,來讓使用者迅速查看。
具體來說,使用者可利用AI摘要工具,來對日常工作不太重要的頻道或對話摘要,也能根據需求來決定摘要頻率和時間。AI摘要工具會根據頻道內的其他使用者反應和回覆,來決定摘要哪些訊息,也能根據使用者要求,從各種訊息中,挑出重要人物的訊息摘要。Salseforce強調,系統並不會儲存原始對話Log和摘要工具產出的文字,只會儲存使用者行為的詮釋資料(Metadata),使用者也能對AI摘要工具產出的摘要給建議。(詳全文)
生成式AI Alexa Amazon
Alexa新功能可生成床邊故事,連音樂、插畫都能配
生成式AI又有新應用!Amazon日前給Alexa新添一項功能,讓使用者可和小孩一起設計床邊故事,再透過Echo裝置播放出來。該功能叫做Create with Alexa,是Amazon以大型語言模型和故事訓練而成,可讓使用者根據幾個示例,如場景、主角、色調和氣氛,來產生配有音樂和插圖的故事。
進一步來說,首先,該功能會先驅動大型語言模型,來根據使用者設定,產出5至10行文字及5個場景。接著,場景生成模型會根據每個場景,從人工繪製的圖像庫和AI產生的圖像庫,來選取合適的圖像作為背景。同時,模型還會選取物件和角色,也會根據文字內容,為角色添加相對應的表情與動作。最後,音檔生成器會從音樂庫(含和弦、合聲和旋律)中,來產生相應的音樂。目前,該功能已於11月29日上線,但只限於英文版。(詳全文)
ByteDance 2D卷積 文字轉影片
抖音母公司用2D卷積打造文字轉影片AI,降低運算複雜度
近2年生成式AI熱浪大起,不只是文字生成,各種文字轉圖像應用也雨後春筍般出現。最近,科技巨頭的研究目標轉向更難的文字轉影片,因為光是收集文字-影片配對的資料集,就比文字-圖像要難得多,且不同幀的銜接度也難以掌握。
不過,抖音母公司ByteDance近日發表自家研究成果,以擴散模型(Diffusion model)為基礎,打造一款可將文字轉為影片的生成式AI工具MagicVideo,透過預訓練的變分自動編碼器,來在潛在空間中(Laten Space)產生影片。這個方法,大大降低了MagicVideo的運算量,而且,MagicVideo還以2D卷積來取代3D卷積,克服文字-影片的資料集問題,也降低運算複雜度。為降低記憶體消耗,2D卷積的每個運算都共享同樣權重,但這麼做會降低產出的影片品質,團隊於是在MagicVideo中採用自定義輕量級模組,來調整每一幀的分布。他們認為,該研究是文字轉影片發展中,減低運算複雜度的一個重要成果。(詳全文)
IDC 多模態 數位雙生
IDC預測2023 AI趨勢:多模態AI和數位雙生紛紛落地
IDC日前發表2023年科技趨勢預測,指出明年將見到更多自動化和多模態AI應用落地,因為,他們發現全球過半企業面臨嚴重的人才與技術缺口,企業也面臨營運成本增加的壓力,而自動化就會是企業解決壓力的重要投資。
IDC指出,企業自動化應用需要AI接軌,而單模態AI對企業即時決策和預測的需求來說是不夠的,因此,能同步處理文本、視覺影像和音訊等的多模態AI,會是企業用來實現自動化、跨越內部各種業務流程的解方。IDC認為,多模態AI的自動化應用已在智慧能源和晶片開發設計上有所成績,他們預測,到了2023年,人才與技術缺口將促使35%的IT組織投資AI技能,並預期2026年,40%的AI模型將涵蓋多模態數據演算。
此外,IDC也預測,數位雙生也將因IoT、雲端和邊緣運算技術提升,而開始進入大型製造業、倉儲物流和產業供應鏈,而非只是國防、航太和能源等產業。IDC預測,明年將見到更多元的數位雙生部署,並在不同產業和企業規模間階段性導入。甚至,2026年也將有20%的大型企業,以運行大規模的數位雙生專案來維持商業利益。(詳全文)
DirectML PyTorch Transformer
最新版DirectML PyTorch開始支援熱門Transformer模型
由微軟維護的深度學習加速框架DirectML PyTorch近日發布正式版,新支援不少熱門的Transformer模型,如GPT2、BERT和Detection Transformers。也就是說,開發者現在可利用GPU加速的PyTorch,來訓練常見的Transformer模型了。
目前最新版本的Windows 10和WSL都支援帶有DirectML技術的PyTorch應用,開發者現可下載PyPI套件,來進行Transformer模型應用開發。不只如此,新版框架也改進了記憶體消耗、提供更快的效能,也能處理更大批次的工作。(詳全文)
德意志銀行 金融AI Nvidia
德意志銀行測試大型金融語言模型,要加速金融AI服務
德意志銀行日前宣布要藉Nvidia的AI工具,來改善金融服務,包括開發符合監管要求的AI服務、支援德意志銀行雲端數位轉型政策,以及以AI來簡化、加速德意志銀行雲端搬遷決策。
在建立這項合作之前,Nvidia與德意志銀行已先執行數月的探索性工作,比如風險模型開發、高效能運算和品牌虛擬人物的建造。這次,德意志銀行計畫使用Nvidia AI Enterprise端到端軟體套件,在雲端和資料中心執行AI開發和部署,讓德意志銀行開發者可在本地和Google雲端,執行AI工作流程。另一方面,德意志銀行也要發展非結構化資料分析技術,他們正在測試Financial Transformers大型語言模型,要來實現金融交易對手方的預警訊號,還要更快資料檢索和辨識資料品質。(詳全文)
微軟 Azure 語音轉文字
微軟推出新版Azure語音功能,使用者可客製SST模型改善準確度
微軟更新Azure認知服務語音功能,透過客製化語音轉文字功能,來加強應用程式和產品的語音轉文字準確性。新的客製化語音模型,是以樣板模型為基礎,用戶可以透過2種方式優化模型,一是以特定領域的文字資料來訓練模型,強化字彙辨識力,另一是透過轉錄的音訊資料,來提高對特定音訊條件的辨識能力。
這些優化方式,又可細分為4種。第1是最簡單的方式,使用者以詞彙列表添加如參與者姓名、產品和行話列表,來提高模型對這些詞彙的辨識能力。再來是以純文字,如各種體育賽事使用的詞彙,來提高特定領域詞彙精確度。第3種是以結構化文字,來強化模型辨識語音中,如片語等不同的短語形式。最後,使用者也能用音訊資料,加強模型對特定口音、說話風格或背景噪音的辨識能力。(詳全文)
圖片來源/UC Berkeley、Salesforce、Amazon、ByteDance
AI近期新聞
1. Google開源注意力中心模型,可預測圖片最吸引人類目光的位置
資料來源:iThome整理,2022年12月
熱門新聞
2024-09-10
2024-09-09
2024-09-09
2024-09-06
2024-09-09
2024-09-10
2024-09-10
2024-09-11