AI趨勢周報第272期：AI更會說人話了！新技術TASTE讓語音與文字無縫對齊

圖片來源:

MediaTek Research

重點新聞（0411～0417）

語音理解 壓縮 TASTE

AI更會說人話了！新技術TASTE讓語音與文字無縫對齊

日前，聯發創新基地（MediaTek Research）聯手臺大電機系教授李宏毅團隊發表一項名為TASTE的模型技術，能壓縮原本冗長的語音Token，準確對齊到相對應的文字Token，進而兼顧大型語言模型（LLM）語言和語音理解能力，進一步生成更自然的語音回覆，讓模型更擅長語音對話。

研究指出，ChatGPT、Gemini這類LLM很擅長文字任務，但當人類改用「講話」的方式與AI互動，現有模型往往力不從心。這是因為，語音和文字這兩種資料格式有所落差，比如同一句話，用說的會產生數百個語音片段（tokens），但對應的文字卻可能只有十幾個字。這讓模型難以同時處理語音與文字的對齊和理解。

針對這個問題，研究團隊提出新方法 TASTE（Text-Aligned Speech Tokenization and Embedding），包含3種技術，先以文字對齊語音（Text-Aligned Tokenization）來壓縮語音片段並對齊到正確的文字，再透過聚合機制，將冗長的語音資訊精簡成少量有意義的Token，並保留語音中的語氣和情緒等細節，最後將語音重建，來確保模型即使縮短語音序列，仍能重現原始語音訊息。經測試，用TASTE少量微調現有LLM，就能在多項語言任務中有良好表現、與全參數模型相當，且更有效率。（詳全文）

OpenAI o4-mini 推理模型

OpenAI發表o3與o4-mini推理模型

日前，OpenAI發表全新的o3推理模型和輕量級o4-mini推理模型，兩者都具備視覺推理和圖像操作能力，能將圖像納入推論過程並對其進行多步驟的視覺分析，比如自動對圖像進行縮放、旋轉、剪裁和其他簡單的圖像處理等操作。

o系列是OpenAI的推理模型，具備關聯性思考能力，它們在回答之前會花更多時間思考，採用很長的內部思考鏈。就o3來說，它是OpenAI目前最強大的推理模型，在程式碼、數學、科學與視覺感知上都有所進步，外部專家評估，它在困難的現實任務上，所犯的重大錯誤比OpenAI o1少了20%。目前，o3每輸入100萬個Token的價格為10美元，輸出100萬個Token的價格為40美元；o4-mini每輸入及輸出100萬個Token的價格，分別是1.1美元及4.4美元。（詳全文）

MCP A2A 微軟

微軟Semantic Kernel整合MCP與A2A協定

最近，微軟開源AI代理開發框架Semantic Kernel支援了Anthropic與Google的兩項開放協定，分別是MCP（Model Context Protocol）和A2A（Agent‑to‑Agent），進一步強化跨代理上下文共用、工具協作與跨雲環境的互通能力。透過這兩項協定的整合，開發者不僅能在本地與遠端串接多個語言模型、工具與代理，也能實現跨平臺、跨生態的模組化任務委派與功能組合，進一步簡化多代理系統的建置流程。

在MCP方面，Semantic Kernel從Python 1.28.1版本以來，已具完整客戶端與伺服器角色的能力，可作為MCP主機開放自身的函式與提示詞，還能當作客戶端串接任何符合MCP協定的伺服器。在A2A方面，微軟提供整合範例，其中有旅遊代理，能根據任務類型動態路由至匯率查詢代理，或行程規畫代理，透過A2A的Agent Card機制進行自動探索與任務派送。目前，相關範例已在Semantic Kernel與Google A2A的官方範例儲存庫釋出。微軟預告將持續擴充整合腳本，包含Azure AI Foundry與Semantic Kernel的整合範例，供開發者參考。（詳全文）

Gemini 2.5 Flash Google 推理功能

Google預覽新模型Gemini 2.5 Flash

Google推出預覽版的語言模型Gemini 2.5 Flash，主打具備可切換推理功能與思考預算（Thinking Budget）控制機制，協助開發者在速度、成本與結果品質之間取得更細緻的平衡。相較先前版本2.0 Flash，這次更新不只保留高運算效率，還強化對複雜任務的理解與處理能力，尤其明顯提升需要多步驟推理指令的回答準確度。

Gemini 2.5 Flash是Google第一個混合式推理模型，允許開發者透過API或Google AI Studio介面，依據使用場景決定是否啟用模型的思考能力，並可設定Token上限作為推理預算。Gemini 2.5 Flash已於Google AI Studio與Vertex AI平臺開放預覽，開發者可透過新參數thinking_budget控制模型的推理深度，範圍從0至24,576 Tokens。（詳全文）

AI代理 程式碼 Codex CLI

OpenAI開源程式碼代理工具Codex CLI

近日，OpenAI開源程式碼代理工具Codex CLI，是個可安裝在開發人員電腦上的命令列介面（CLI），現可用來存取OpenAI o3與o4-mini模型，未來也可支援GPT‑4.1⁠等其它模型。

Codex CLI是款輕量級的命令列工具，開發人員可在電腦上以自然語言與AI模型互動，來修改、執行或生成程式碼，所有的檔案讀寫及命令執行都能在本地完成，僅將提示、脈絡與選用的差異摘要發送至模型進行生成，採用Apache-2.0開源授權。不過，因為它連結的是付費的OpenAI模型，因此設定時需要具備一個付費的OpenAI API帳戶。（詳全文）

勤業眾信 生成式AI 能源

勤業眾信產業AI報告點出4趨勢

在中美關稅戰影響下，勤業眾信最近發布《2025全球高科技、媒體及電信產業趨勢預測》報告，點出4個關鍵趨勢，包括算力即電力、代理型AI崛起、智慧裝置結合GenAI，以及矽光子加速運算。

就算力即電力來說，隨AI需求快速成長、整體用電量同步上升，勤業眾信預測，至2030年，全球資料中心的用電量將突破1,000太瓦時（TWh），幾乎是目前的2倍。在淨零碳排的條件下，可行的能源因應對策除了電力購買協議（PPA）、與再生能源供應商簽訂長期合約外，也能從提升AI晶片能源效率、導入邊緣運算、優化演算法等方向著手，加強生成式AI的能源管理。

就趨勢2來說，代理型AI建築於大型語言模型（LLM）基礎上，與傳統機器學習相比，更能自主規畫任務、執行決策。勤業眾信預測，至2025年導入生成式AI的企業，將有25%會布局代理型AI，至2027年將成長至50%。這類代理型AI潛在應用場景，包括AI法遵系統，能即時解析複雜的法規和內部文件，協助企業進行合規風險評估。報告建議，企業應及早規畫導入策略，建置完善的資料管理、資安防護和治理架構，並重整可由AI強化的高價值業務流程。

至於第3個趨勢，報告指出，智慧裝置未來可能進化為，具備代理型AI技術的平臺，重新定義人機互動模式。但在這個過程中，也得面對使用者對代理型AI信任的問題。最後一個趨勢則是，應用於高速資料傳輸和高效能運算的矽光子技術，在生成式AI 、雲端服務需求的增加下，將逐漸取代傳統電子傳輸，成為新一代資料中心和AI運算架構的關鍵技術。報告預期大型企業將投入數十億美元來收購矽光子新創公司或相關部門，而在臺灣，國際導體產業協會（SEMI）也與工研院和多家企業成立SEMI 矽光子產業聯盟，先一步布局。（詳全文）

趨勢科技 資安 網路犯罪即代理

趨勢科技點出網路犯罪3變革，AI代理成關鍵

最近，資安大廠趨勢科技表示，生成式AI不只企業提升營運效率，也成為犯罪組織用來編寫惡意軟體的工具。他們觀察發現，當前的網路犯罪態勢從網路犯罪即服務（Cybercrime as a Service）演變為以AI代理為基礎的網路犯罪即代理（Cybercrime as a Servant），出現3大變革。

首先是「網路犯罪即代理」新模式崛起，當人類與AI的合作模式從AI助理被動提供建議，轉為AI代理主動執行任務，網路犯罪也預期將從現有的網路犯罪即服務模式，轉變成大幅運用AI代理建構的新模式，透過AI建立自動化流程提高攻擊效率。再來是攻擊領域擴大規模，新興市場將面臨嚴峻資安挑戰，尤其當網路犯罪透過AI代理自動化，駭客能比過往瞄準更多目標，犯罪集團會擴大攻擊範圍，拓展至東南亞或拉丁美洲等新興市場。

最後是雲端帳號的大規模攻擊與部署。為了讓「網路犯罪即代理」順利運作，駭客組織將需要大量運算資源和基礎架構來訓練AI代理，趨勢科技預測，駭客將攻擊如Amazon Bedrock、Azure AI、Google Vertex等生成式AI即服務的供應商，並盜用雲端帳號來取得更多微服務架構或算力。對此，趨勢科技臺灣區總經理洪偉淦認為，企業亟需採用能全面提高可視性，且能統一管理的資安工具，並將資安視為管理議題、採主動式防禦作為資安策略，提前預測駭客的潛在攻擊路徑，才能掌握AI世代的資安主導權。（詳全文）

Line MCP協定 官方帳號

Line推出官方支援的Line Bot MCP Server測試版

日前，Line在GitHub上發布供實驗用的MCP Server伺服器，開發者可用來整合AI代理（Agent）與Line Messaging API，也就是將AI代理與Line官方帳號連接，透過官方帳號向使用者推播訊息、對話交流，或是使用已添加好友的用戶資料等功能。

Line MCP Server支援的訊息類型有幾種，包括單純的文字訊息、多元複雜的Flex訊息，也能在訊息中加入圖片、按鈕等元素。這個MCP Server支援Node.js和Docker方式安裝。Line說明，目前發布的版本為測試版，未來將支援完整的Messaging API功能。（詳全文）

圖片來源／MedieTek Research、微軟、Google、Line

AI近期新聞

1. Google影片生成模型Veo 2推向付費版Gemini Advanced方案、另提供實驗版圖片生成服務Whisk Animate

2. OpenAI推出輕量版Deep Research功能免費用戶終於可以用了

3. 微軟預告Copilot新功能，將引入推理代理人與Notebook協作工具

資料來源：iThome整理，2025年4月

重點新聞（0411～0417）

熱門新聞