
重點新聞(0206~0212)
GPT Transformer 簡化
200行Python程式碼重現GPT核心,AI也可以很極簡
前OpenAI研究員、Eureka Labs創辦人Andrej Karpathy最近發起一個實驗專案microGPT,只用243行純Python程式碼、不依賴任何機器學習框架,就完整重現GPT語言模型的訓練與推論流程,把GPT的核心運作邏輯完整寫出來。他形容,GPT真正「不可或缺」的演算法就是這些,其他程式碼只是為了讓模型跑得更快、更有效率。他後來又再優化架構,進一步把程式碼精簡到200行。
Andrej Karpathy沒有用PyTorch、TensorFlow或NumPy等任何深度學習框架,而是用最基本的數學運算,把GPT需要的所有核心機制一個個寫出來。從Transformer架構和自注意力機制,到前向與反向傳播、梯度更新,再到一個字一個字生成的自回歸流程,都完整寫在這幾百行程式碼裡。只不過,模型在訓練時的梯度計算,由他自製的micrograd引擎負責,並搭配Adam演算法更新參數。
他後來精簡過的版本,把反向傳播寫得更直觀:每個運算步驟只需說明「如果輸出改變,自己會怎麼改變」,整體誤差的連鎖傳遞由系統統一處理。每個模組只負責自己的部分,程式結構因此變得更乾淨。
新版程式也排成三欄形式:資料與自動微分、GPT模型本體,以及訓練和推論流程。這個專案就像是把大型語言模型(LLM)的核心,從龐大框架和黑盒子中抽出來,回到最基本的數學與演算法本質。(詳全文)
OpenAI Codex 程式開發
OpenAI推GPT-5.3-Codex,AI開始協助打造AI了
OpenAI再推新版代理型程式開發模型GPT-5.3-Codex,不只強化開發能力,更首度公開表示,在訓練與部署過程中,新模型的早期版本還能使用工具、協助開發後來的正式版本,就像是自己開發自己一樣,揭示「AI輔助AI開發」開始走向實務。
GPT-5.3-Codex延續400K的上下文長度,並優化長時間、多步驟任務的穩定性和執行速度,與前代相比,整體效能提升約25%。這套模型專為Nvidia GB200 NVL72架構設計,在SWE-Bench Pro與Terminal-Bench 2.0等基準測試中,表現也比前代模型好,部分成績也高於Claude Opus 4.6。
OpenAI強調,GPT-5.3-Codex可支援從寫程式、除錯、部署到文件記錄和測試等完整軟體生命周期。在整體開發能力上,OpenAI強調GPT‑5.3-Codex具備更強的編碼、美學和壓縮優化能力,能在數天內從零開始到建立複雜的遊戲和應用程式。這波更新不只是新模型發布,更顯示AI從輔助寫程式,開始參與下一代模型開發,意味著代理型AI競賽進入新階段。(詳全文)
OpenAI 代理 Frontier
OpenAI推代理管理平臺Frontier,瞄準企業級AI協作
OpenAI日前推出代理人管理平臺Frontier,讓企業可開發、部署並統一管理各類AI代理。目前已開放少數客戶使用,未來將逐步擴大。
OpenAI指出,企業要真正提升生產力,關鍵不只是導入AI,而是建立跨系統的AI代理管理機制。Frontier可串接資料倉儲、CRM系統和內部應用,建立共用的「企業脈絡」,讓不同代理理解相同資料和任務背景。企業可透過ChatGPT Enterprise等介面操作Frontier,並同時管理自建、OpenAI提供的或第三方AI代理。
功能上,Frontier涵蓋四大面向:一是整合資料與工具,讓代理人能在既有流程中運作;二是任務規劃與資源調度,可依需求排程模型運算;三是品質回饋與記憶機制,協助代理持續優化;四是企業級安全與治理,為每個代理人設定身份、權限與護欄。目前HP、Oracle和Uber等企業已導入或測試,OpenAI也派出前導部署工程師協助落地。(詳全文)

Anthropic 金融分析 Office
Anthropic新模型專攻金融分析和Office整合
Anthropic在2月5日發表新模型Claude Opus 4.6,主打強化金融研究和分析能力,並同步升級Claude in Excel,還推出研究預覽版Claude in PowerPoint與桌面工具Cowork,把生成式AI進一步帶進金融專業人員的日常工作。
Anthropic表示,新版在推理、多工處理與長時間多步驟任務的穩定性上,都有明顯進步。在其內部Real-World Finance評測中,Claude Opus 4.6在50項投資與財務分析情境下,表現比幾個月前推出的Claude Sonnet 4.5高出23個百分點。在外部測試中,在Vals AI的Finance Agent評測達60.7%,TaxEval稅務測試則是76%。
產品面上,Claude in Excel可直接協助規畫分析流程、編輯樞紐分析表和圖表,降低跨檔案操作負擔。研究預覽版Claude in PowerPoint則可讀取簡報版型和母片,自動生成或修改投影片。桌面工具Cowork可在授權下,存取指定資料夾,同時處理多份文件與任務,並支援外掛整合財務流程。市場反應上,多家傳統企業軟體股在這項消息公布後出現下跌,顯示AI對既有工作軟體版圖的衝擊正在擴大。(詳全文)
.png)
Mistral 語音轉文字 會議
Mistral揭露新一代語音轉文字模型
法國AI新創Mistral推出語音轉文字系列模型Voxtral Transcribe 2,鎖定會議逐字稿、客服通話和即時語音互動等需求。這次發布兩款模型:適合大量錄音處理的Voxtral Mini Transcribe V2,以及主打即時應用的Voxtral Realtime。官方表示,即時模型的轉錄延遲可設定到200毫秒以下。
Voxtral Realtime採用串流架構,音訊一進來就同步產生文字,而不是先切段再處理。開發者可依需求,調整速度和準確度。模型權重採Apache 2.0授權,企業可自行部署在本地或邊緣設備。
批次模型則新增說話者分離、詞級時間戳記與語境偏移功能,可加入最多100個關鍵詞,幫助辨識人名或專業術語,方便整理多人會議。官方公布,模型在FLEURS測試中詞錯誤率約4%,API定價為每分鐘0.003美元。Mistral也在Mistral Studio新增音訊試用介面,讓團隊可上傳檔案、即時檢視轉錄效果。(詳全文)
GitHub 基礎設施 AI代理
GitHub把AI代理變成開發基礎設施
GitHub旗下工具Agent HQ開始支援Claude和Codex模型(公開預覽版),意味著GitHub正把多家AI模型納入核心開發流程,而不是只當作外部輔助工具。Copilot Pro+和Copilot Enterprise用戶可在GitHub網站、行動版與VS Code啟動代理工作階段。
這次的更新關鍵,在於讓不同代理直接參與既有協作流程。開發者可將議題指派給代理,或要求其在Pull Request中分析、提出修改建議,所有對話、變更和日誌都會保留在儲存庫內,納入原本的審查與追蹤機制,減少工具切換的麻煩。
VS Code 1.109以上版本可支援本機互動與雲端自動化兩種模式,長時間任務可交由GitHub端執行。企業管理者則能集中設定模型存取權限和安全政策。GitHub也預告,接下來將引進更多AI供應商,來打造多代理並存的開發環境。(詳全文)
104人力銀行 推薦 履歷
104人力銀行揭3項AI應用,推薦與履歷健檢加速工作媒合
104人力銀行日前公布旗下3項AI亮點應用,包括AI工作/人才推薦、AI訊息分類和AI履歷健檢。這些功能結合自研演算法與開源、商用大型語言模型(LLM),目標是要提高求職者與企業間的雙向媒合效率。
在推薦機制方面,AI會根據求職者瀏覽行為、履歷內容與偏好,自動推送高關聯職缺;企業端則可每日收到符合職缺條件的人才建議,並透過回饋持續優化模型。104統計,透過AI推薦獲得面試邀約的機率,是自行搜尋的3.2倍,企業端邀約同意率也約為傳統方式的3倍。
為降低溝通落差,104也推出AI訊息分類,將企業面試邀約分為高關聯的「專屬」與其他「一般」訊息,協助求職者快速判斷優先順序。此外,AI履歷健檢可在約3秒內給出客製化建議,引導補強關鍵經歷與成果,而非直接代寫。近4成使用者依建議更新履歷,整體面試機會提升約20%。(詳全文)

Databricks LLM 評審
Databricks發表MemAlign,用雙記憶機制強化LLM評審能力
Databricks旗下Mosaic AI Research團隊發表MemAlign,是一套以「雙記憶系統」累積專家回饋的大型語言模型(LLM)評審對齊框架,並已整合進開源模型管理平臺MLflow。。
企業常讓LLM擔任評審,檢查客服機器人或代理程式輸出是否合規,但通用模型的判斷往往和領域專家標準有落差。Mosaic指出,單靠提示詞,容易前後不一致,若靠微調,則成本高,因此改採記憶機制累積專家自然語言回饋。
MemAlign把可重複使用的原則存入「語意記憶」,把具體案例保留在「情節記憶」,新任務評估時會同時檢索兩類記憶作為參考,不需更新模型權重。在Prometheus-eval測試中,僅用最多50筆回饋樣本,即可在約40秒內完成對齊,成本約0.03美元。不過推論時需進行向量搜尋,單筆評估可能增加約1秒延遲。目前,MemAlign已可在MLflow與Databricks平臺使用。(詳全文)

圖片來源/OpenAI、Anthropic、104人力銀行、Databricks
AI趨勢近期新聞
1. Google將Data Commons MCP改為雲端託管,免本機部署即可查詢公開統計資料
資料來源:iThome整理,2026年2月
熱門新聞
2026-03-06
2026-03-02
2026-03-02
2026-03-04
2026-03-02
2026-03-05
2026-03-02