AI趨勢周報第238期：突破LLM擴展法則？MosaicML揭新研究成果

MosaicML團隊修改了熱門的DeepMind Chinchilla優化方法，來根據理想的模型品質和運算成本需求，計算出最佳的LLM參數量與訓練資料集大小，並實際用Chinchilla模型來實驗。

圖片來源:

MosaicML

重點新聞(1229～0104)

LLM Chinchilla 擴展法則

突破LLM擴展法則？MosaicML揭新研究成果

一般來說，LLM擴展法則都是以模型參數量和訓練資料量，來估算模型品質的變化，就連熱門的DeepMind Chinchilla（龍貓）優化方法也是。換句話說，這個法則是指，模型的訓練Token數和參數越多，模型表現理應越好。

但MosaicML團隊認為，這些公式忽略了模型推論成本。因此，他們修改了DeepMind的Chinchilla擴展法則，來根據目標，即理想的模型品質和運算成本需求，計算出最佳的LLM參數量與訓練資料集大小。他們的公式建議，可使用更少參數的模型，但以比Chinchilla優化方法更長的訓練時間，來訓練模型，一樣可實現高品質模型。

這項研究也實驗發現，Chinchilla模型在高推論需求下，可用更少的參數和更多資料，來進行優化訓練，還能大幅降低總運算成本，從70億參數、130億參數和700億參數的模型版本都是。該研究也討論了TinyLlama，這是一個11億參數的輕量版模型，使用了3兆個Token訓練而成，MosaicML表示，這是突破Chinchilla擴展法則的另一例，特別是當推論需求越接近訓練資料大小時，這股趨勢越明顯。不過，團隊也表示，他們的公式還需要進一步驗證適用性，特別是在預訓練Token數明顯超過模型參數的情形下。（詳全文）

摩根大通 DocLLM 多模態

摩根大通發表懂圖文的輕量級多模態模型DocLLM

日前，摩根大通發JPMorgan表自行研發的多模態輕量級語言模型DocLLM，可用來分析企業文件，如發票、收據、合約、表格和報告等。進一步來說，DocLLM使用OCR得到的邊界框，來添加空間位置資訊，因此不必使用複雜的視覺編碼器，減少處理時間。這麼做，幾乎不增加模型大小，也保留了因果解碼器的架構。

團隊表示，他們的方法將空間資訊與文字資訊分離，能將典型的Transformer自我注意力機制擴展，來捕捉跨模態的互動資訊。由於文件中常出現碎片化的文字區塊和複雜版型，為解決辨識問題，團隊還在自監督預訓練階段，改變預訓練目標，利用填充方式來適應各種文字排版和區塊，模型也能更有效處理混合型或文字不對齊的文件。經測試，DocLLM在16個資料集中的14個，表現比同類模型要好，如Llama 2加上OCR。目前，摩根大通尚未釋出任何DocLLM程式碼或資料集，僅發表論文。（詳全文）

TinyGPT-V 多模態 Phi-2

研究員開源28億參數多模態小模型TinyGPT-V

最近，來自美國理海大學、新加坡南洋理工大學和中國安徽大學的研究者共同發表一款28億參數的多模態模型TinyGPT-V，號稱表現比與70億參數和130億參數版本的Flamingo、MiniGPT-4和其他多模態大型語言模型（MLLM）還要好，所需運算成本也更低。

TinyGPT-V以微軟的小型語言模型Phi-2為骨幹，並整合了BLIP-2或CLIP這類的預訓練視覺模組，只需要24GB的GPU進行訓練、用8GB的GPU或CPU就能進行推論。經測試，TinyGPT-V在視覺空間推理（VSR）零樣本任務的表現優異，比其他大參數型的同類模型表現要好。此外，研究團隊表示，TinyGPT-V因採用特殊架構，因此可在8GB容量的裝置上進行本地端部署和模型推理工作，可算是MLLM部署難題的另一出路。（詳全文）

金管會 金融業運用AI指引 公平性

金管會發布金融業運用AI指引草案

就在上個月底，金管會公布了金融業運用AI指引草案，提供6大原則與建議供金融業者參考。該草案定義了AI系統的4大生命周期階段，包括系統規畫及設計、資料蒐集及輸入、模型建立及驗證，和系統佈署及監控，而草案則建議金融業者，要在各個階段落實核心原則。

這些核心原則包括了建立治理及問責機制、重視公平性及以人為本的價值觀、保護隱私及客戶權益、確保系統穩健性與安全性、落實透明性與可解釋性，以及促進永續發展。以落實公平性為例，指引建議了業者在AI系統4大生命周期階段可採取的措施，比如系統規畫及設計階段，須提供救濟管道，在資料蒐集及輸入階段則要檢視數據是否產生偏見，在模型建立及驗證階段，除了要自行檢驗模型對不同群體產生的結果，還要聘請外部人員驗證。至於系統佈署及監控階段，則要定期檢視、分析AI系統產出的結果是否存在歧視。該草案將對外徵詢意見，自發布日起60日後，將視各界意見修正、正式發布指引。（詳全文）

蘋果 Ferret 多模態

蘋果公布多模態AI模型Ferret

自2023年12月開始，蘋果陸續公布AI研發成果，日前又發布了多模態大型語言模型（MLLM）Ferret和相關基準測試工具與資料集。多模態是指模型可處理多種類型的資料，以Ferret來說，它可接收文字、聲音、影像和數據的輸入值。

這款Ferret採用新式混合區域表徵技術，整合了個別方位和連續性的特徵，來表示圖片中的某一區域。為提取出區域中的連續特徵，蘋果還提出一種空間感知的視覺採樣器，來處理不同形狀多種稀疏性。如此一來，Ferret就可接收多樣化區域輸入，像是點、邊界框或自由形式的形狀。

蘋果用這些方法和資料訓練出Ferret-13B。經測試，與Kosmos-2、GPT4-ROI、LLaVA、Shikra等MLLM相比，在需本地化的多模態對話和細節描述等任務中，Ferret表現都比這些MLLM好。在視覺化比較任務中，Ferret也表現出優異的空間理解和常識推理能力。蘋果還指出，Ferret物件幻覺也比Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT和mPLUG-Owl等知名MLLM少很多。（詳全文）

Google 交通模擬 車輛

Google開發交通模擬模型，成功加速大型活動後車輛離場

Google研究院與西雅圖交通部合作，開發模擬交通引導計畫，還將研究結果實際應用在道路交通上。他們採用數位雙生（Digital Twins）方法，由Google先用開源模擬軟體SUMO，來針對西雅圖體育場周邊地區打造交通模擬模型，盡可能地重現特定時間的交通狀況。同時，團隊還用Google地圖資料，來定義網路結構和各種路段靜態屬性，如車道數、限速和交通號誌等。

接著，他們還將道路網路劃分為不同區域，來計算車行需求，也就是車型數量。後來，團隊使用匿名車行統計資料來校準預測策略，西雅圖警察局也提供了最需改進的擁擠路線，來讓Google用模擬模型評估新路線策略。最後，他們在2023年8月和11月期間，在多個數千名參加者的大型活動中實驗，採用新的路線策略，並以動態訊息號誌（DMS）引導車輛，成功將離開體育場的平均車行時間降低7分鐘。（詳全文）

船隻軌跡 衛星圖像 GPS

靠AI和衛星圖像，畫出全球首張海上船隻足跡地圖

《自然》期刊最近刊出一篇研究報告，全球漁業觀察（Global Fishing Watch）組織主導一項研究，用機器學習和衛星圖像，繪製出全球首張海上基礎設施和船隻足跡地圖，揭露75%的工業漁船一直在暗中活動。

團隊透過衛星圖像、船隻GPS資料和AI模型，來分析2017年至2021年間的2PB衛星圖像。他們訓練了3個模型來辨識衛星圖像的物件，也分析了船隻自動辨識系統的530億個GPS位置，並與衛星偵測結果比對，來確認偵測到的船隻是否可公開追蹤。他們發現，任何特定時間平均可檢測到6.33萬艘船隻，當中近一半為漁船，但有3/4的漁船並未出現在公共偵測系統中，其它種類船隻未出現的比例則是1/4。這代表，全球船隻活動中，有一半的船隻無法被公開追蹤。這項研究顛覆了某些認知，比如以前以為沒有太多船隻活動的海域，其實聚集了大量船隻，或是公開資料顯示歐亞境內的捕魚活動相似，但實際並非如此。（詳全文）

AI評測中心 數位部 公平性

生成式AI加速法律利益衝突檢查

生成式AI也加速法律科技發展，最近，法律科技軟體公司鈦度科技打造一套雲端服務平臺Matteroom，用微軟Azure OpenAI服務，來簡化法律事務作業。比如，使用者可用來強化利益衝突檢查，在案件承接前置作業時，先分析資料庫中龐雜的數據，找出客戶與事務所其他案件的潛在利益衝突與風險排競，來將過往手動搜尋所需的數小時，縮短為幾秒鐘。此外，這款Matteroom也整合了辦公軟體Microsoft 365，能管理自動化出帳、人員績效洞察等作業流程，可節省30%的秘書及會計等行政勞動成本。（詳全文）

圖片來源／MosaicML、Zhengqing Yuan、金管會、蘋果、Google、鈦度科技

AI近期新聞

1. 微軟全面推出Copilot App

2. 英特爾成立生成式AI公司Articul8 AI

3. 高通推出混合實境晶片Snapdragon XR2+

4. 高品質聲音複製模型OpenVoice開源了

資料來源：iThome整理，2024年1月

熱門新聞