AI趨勢周報第227期：Falcon系列模型添新成員，180B版一現身就勝過Llama 2

繼今年6月釋出10億參數、70億參數和400億參數的語言模型Falcon後，阿拉伯聯合大公國科技創新研究院（TII）開源1,800億參數的大型語言模型Falcon-180B，且可商用，但不允許託管運用。

圖片來源:

HuggingFace

重點新聞(0901～0907)

Falcon-180B Llama 2 語言模型

Falcon系列模型添新成員，180B版一現身就勝過Llama 2

最近，阿拉伯聯合大公國科技創新研究院（TII）開源1,800億參數的大型語言模型Falcon-180B，在HuggingFace排行榜上勝過Meta的Llama 2（700億參數）和GPT-3.5，表現與Google的PaLM-2 Large相當。

今年6月，TII就釋出語言模型Falcon，包含10億參數、70億參數和400億參數。這次，他們以400億參數版本爲基礎，用自家RefinedWeb資料集（共3.5兆個Token）訓練出Falcon-140B，是目前開源語言模型中最大的版本。這次模型新添了些新機制，如多重查詢注意力機制（MQA），來提高擴展性。團隊以機器學習平臺Amazon SageMaker和高達4,096顆GPU來訓練Falcon-180B，共耗費700萬個GPU小時。

就測試結果來說，Falcon-180B在多任務語言理解基準測試MMLU中勝過Llama 2和GPT-3.5，並在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ等資料集測試上與PaLM 2-Large相當。它在HuggingFace排行榜的分數是68.74，是得分最高的開源預訓練LLM，超過Meta的LLaMA 2 （67.35）。雖然開源且開放商用，Falcon-180B的條件比前幾代嚴格，不允許任何托管用途。（詳全文）

TAIDE 生成式AI 公部門

國產可信任AI對話引擎TAIDE將開放公部門測試申請

國科會在上半年號召國內學術團隊和國科會轄下機構，展開TAIDE計畫，打造專為臺灣使用者設計的可信任AI對話引擎TAIDE，自6月揭露第一階段成果後，9月將進入大規模測試階段。

該計畫統籌負責人李育杰指出，團隊將於9月邀請部會報名，並於10月提供測試帳號，來讓公部門測試應用。他也指出，由於Meta在7月中釋出可商用的Llama 2，讓商用版TAIDE模型有了更好的基礎，如Taide-llama2-13B-Chat模型已有不錯的表現，且讓TAIDE在學研與商用模型發展的經驗和資源可共軌。目前，TAIDE應用場景先鎖定4項日常辦公工作，如中英翻譯、自動摘要、寫Email，以及出題目就能產生作文等任務。

他也預告，TAIDE計畫團隊將在10月中下旬舉行線上會議，並對中央政府部門舉辦工作坊，再擴及地方政府部門，向各機關人員介紹這套模型與使用教學。未來，TAIDE計畫團隊希望政府或業界都可基於這套AI對話引擎，根據需求，來自行訓練模型並建立內部應用。（詳全文）

生成式AI 司法院 裁判書

司法院將在幾家法院試用生成式AI系統，要降低法官裁判負擔

去年4月開始，司法院就開始在打造生成式AI應用，要來輔助法官製作不能安全駕駛、幫助詐欺2大類裁判草稿，來供法官製作裁判時參考。目前，司法院已完成這2類生成式AI系統，可即時根據犯罪事實、證據等資料，來產出裁判草稿。系統複驗通過後，就會由司法院刑事廳和資訊處討論、選擇幾家法院試辦，評估效用後，就會全面上線AI系統。

司法院表示，他們也正開發毒品罪裁判草稿的生成式AI系統，預計今年12月試辦上線。明年則是要發展「民事交通損害賠償」、「消債更生、清算」等事件裁定草稿自動生成的開發案。這些生成式AI系統以TMT5模型，並以起訴書、配對的裁判書等資料訓練而成，該系統採完全落地模式，來訓練、生成答案，保護資料隱私。（詳全文）

Google 天氣預測 評估

Google釋出全球天氣模型預報基準，可精準比較天氣預報模型

Google日前釋出一款天氣預報模型評估和比較框架WeatherBench 2，可計算機器學習模型和物理模型的天氣預測分數，協助專家依此微調和改善模型。Google也開源WeatherBench 2程式碼，以及針對雲端最佳化的真實資料和基準資料集。

天氣預報的評估有不少挑戰，因為高解析度的天氣預報資料量龐大，因此Google在開源統一程式開發模型Apache Beam上建置評估程式碼，供用戶將運算分割成小區塊，以進行分散式評估。此外，Google對不同解析度提供雲端最佳化的ERA5資料集，能用來加速ML天氣預測模型的訓練。同時，WeatherBench 2也針對機器學習預測的限制，提供研究範例，Google也將繼續完善WeatherBench 2，添加站點觀測和降水資料集等，並將臨近預報和次季節預測納入基準中。（詳全文）

Amazon SageMaker 生成式AI AWS

生成式AI互動體驗更即時了，Amazon SageMaker新增模型推論結果串流功能

AWS在機器學習服務Amazon SageMaker的即時推論功能中，新添回應串流（Response Streaming）功能，使用者可將模型推論的答案，持續串流回客戶端，來打造生成式AI應用更即時的互動式體驗，如Chatbot、虛擬助理或音樂生成等。這個新功能可讓使用者立即串流資料，不需等到整個回答完整生成才行，省下等待的數秒或更長時間。

要從SageMaker擷取串流回應，用戶需使用新的InvokeEndpointWithResponseStream API，應用程式可更快收到第一個回應位元組，明顯降低延遲。SageMaker託管的大型模型如Falcon、Llama 2和Stable Diffusion等，都能將模型推論結果以串流形式回傳，範圍涵蓋文字和圖像。AWS表示，SageMaker即時端點回應串流是透過HTTP 1.1區塊編碼實作而成，亦即資料會被分成多個區塊傳輸，而非一次性傳送整個資料，伺服器可在生成內容的同時立刻傳輸，不必等待所有內容都準備好。（詳全文）

API Apigee Duet AI

管理API更容易！Google Apigee API整合自家生成式AI助理

Google在Apigee API管理工具和應用程式整合工具中，新添自家生成式AI助理Duet AI，來降低建置API、整合流程和擴充套件的門檻，比如，用戶可用自然語言下指令，來建立API規範，這些規範會將諸如安全架構、集中式目錄API Hub中其他API物件等資源納入考量。

Google指出，這項整合可大幅提高生產力，因為建構API規範需要專業知識，得耗費大量時間才能完成，而Duet AI可加速這個過程，還能標示與API Hub其他API的不一致之處，如語法、語義和程式碼編寫風格。在Apigee API應用程式整合工具方面，Duet AI可根據需求和企業資產，自動建議合適的整合流程。比如根據整合流程中的變數和應用程式，Duet AI會自動建置連接兩個應用程式的資料映射，或根據用戶需求進一步調整資料映射。這項新功能已向Google客戶開放，幾周內將開放預覽。（詳全文）

Salesforce IBM 生成式AI

IBM與Salesforce聯手推企業AI工具

IBM與Salesforce聯手推廣企業生成式AI服務，要加速用戶在客戶關係管理中對AI的採用。在這項合作中，IBM顧問部門將派出16萬名專業顧問，協助用戶採用Salesforce的AI應用，如Einstein、Sales Cloud、Service Cloud、Marketing Cloud和Slack等。此外，IBM顧問部門也會使用自家AI平臺watsonx，來補足Salesforce的解決方案。

進一步來說，Salesforce在今年3月推出了客戶關係管理專用的生成式AI服務Einstein GPT，且在這條產品線旗下，還發展出Marketing GPT等行銷工具，可用來加速廣告文案等工作，另也有客服專用的Einstein GPT for Service，這些生成式AI產品都包含在這次合作範疇內。此外，這次也將以IBM Consulting Managed Services for Salesforce加速器工具組來協助用戶轉型，輔助用戶部署、擴展和強化Salesforce服務。（詳全文）

FACET 歧視 電腦視覺

Meta開源可用來偵測AI歧視問題的FACET資料集

Meta日前開源FACET資料集，能用來評估電腦視覺模型在分類、偵測、實例分割與視覺定位等任務中，可能出現的偏差或歧視，協助開發者改善模型。FACET由3.2萬張照片所組成，包含5萬人，每張照片都由人類專家按相關屬性手動標記，如性別與年齡等族群特徵，膚色、髮型等生理特徵，以及諸如棒球選手或醫生等分類，另也包含來自SA-1B資料集中6.9萬名戴口罩民眾的人口屬性標記。

這個資料集可用來協助回答某些問題，像是當某些表現的刻板印象多為男性時，模型是否能提供更好的辨別；標準檢測模型是否難以偵測膚色較深的人口等。（詳全文）

圖片來源／HuggingFace、AWS、Google、Meta

AI近期新聞

1. 11億參數的小型版TinyLlama問世

2. Zoom重新推出生成式AI助理，可摘要會議記錄

資料來源：iThome整理，2023年9月

重點新聞(0901～0907)

熱門新聞