AI趨勢周報第285期： 200行Python程式碼重現GPT核心，AI也可以很極簡

重點新聞（0206～0212）

GPT Transformer 簡化

200行Python程式碼重現GPT核心，AI也可以很極簡

前OpenAI研究員、Eureka Labs創辦人Andrej Karpathy最近發起一個實驗專案microGPT，只用243行純Python程式碼、不依賴任何機器學習框架，就完整重現GPT語言模型的訓練與推論流程，把GPT的核心運作邏輯完整寫出來。他形容，GPT真正「不可或缺」的演算法就是這些，其他程式碼只是為了讓模型跑得更快、更有效率。他後來又再優化架構，進一步把程式碼精簡到200行。

Andrej Karpathy沒有用PyTorch、TensorFlow或NumPy等任何深度學習框架，而是用最基本的數學運算，把GPT需要的所有核心機制一個個寫出來。從Transformer架構和自注意力機制，到前向與反向傳播、梯度更新，再到一個字一個字生成的自回歸流程，都完整寫在這幾百行程式碼裡。只不過，模型在訓練時的梯度計算，由他自製的micrograd引擎負責，並搭配Adam演算法更新參數。

他後來精簡過的版本，把反向傳播寫得更直觀：每個運算步驟只需說明「如果輸出改變，自己會怎麼改變」，整體誤差的連鎖傳遞由系統統一處理。每個模組只負責自己的部分，程式結構因此變得更乾淨。

新版程式也排成三欄形式：資料與自動微分、GPT模型本體，以及訓練和推論流程。這個專案就像是把大型語言模型（LLM）的核心，從龐大框架和黑盒子中抽出來，回到最基本的數學與演算法本質。（詳全文）

OpenAI Codex 程式開發

OpenAI推GPT-5.3-Codex，AI開始協助打造AI了

OpenAI再推新版代理型程式開發模型GPT-5.3-Codex，不只強化開發能力，更首度公開表示，在訓練與部署過程中，新模型的早期版本還能使用工具、協助開發後來的正式版本，就像是自己開發自己一樣，揭示「AI輔助AI開發」開始走向實務。

GPT-5.3-Codex延續400K的上下文長度，並優化長時間、多步驟任務的穩定性和執行速度，與前代相比，整體效能提升約25%。這套模型專為Nvidia GB200 NVL72架構設計，在SWE-Bench Pro與Terminal-Bench 2.0等基準測試中，表現也比前代模型好，部分成績也高於Claude Opus 4.6。

OpenAI強調，GPT-5.3-Codex可支援從寫程式、除錯、部署到文件記錄和測試等完整軟體生命周期。在整體開發能力上，OpenAI強調GPT‑5.3-Codex具備更強的編碼、美學和壓縮優化能力，能在數天內從零開始到建立複雜的遊戲和應用程式。這波更新不只是新模型發布，更顯示AI從輔助寫程式，開始參與下一代模型開發，意味著代理型AI競賽進入新階段。（詳全文）

OpenAI 代理 Frontier

OpenAI推代理管理平臺Frontier，瞄準企業級AI協作

OpenAI日前推出代理人管理平臺Frontier，讓企業可開發、部署並統一管理各類AI代理。目前已開放少數客戶使用，未來將逐步擴大。

OpenAI指出，企業要真正提升生產力，關鍵不只是導入AI，而是建立跨系統的AI代理管理機制。Frontier可串接資料倉儲、CRM系統和內部應用，建立共用的「企業脈絡」，讓不同代理理解相同資料和任務背景。企業可透過ChatGPT Enterprise等介面操作Frontier，並同時管理自建、OpenAI提供的或第三方AI代理。

功能上，Frontier涵蓋四大面向：一是整合資料與工具，讓代理人能在既有流程中運作；二是任務規劃與資源調度，可依需求排程模型運算；三是品質回饋與記憶機制，協助代理持續優化；四是企業級安全與治理，為每個代理人設定身份、權限與護欄。目前HP、Oracle和Uber等企業已導入或測試，OpenAI也派出前導部署工程師協助落地。（詳全文）

Anthropic 金融分析 Office

Anthropic新模型專攻金融分析和Office整合

Anthropic在2月5日發表新模型Claude Opus 4.6，主打強化金融研究和分析能力，並同步升級Claude in Excel，還推出研究預覽版Claude in PowerPoint與桌面工具Cowork，把生成式AI進一步帶進金融專業人員的日常工作。

Anthropic表示，新版在推理、多工處理與長時間多步驟任務的穩定性上，都有明顯進步。在其內部Real-World Finance評測中，Claude Opus 4.6在50項投資與財務分析情境下，表現比幾個月前推出的Claude Sonnet 4.5高出23個百分點。在外部測試中，在Vals AI的Finance Agent評測達60.7%，TaxEval稅務測試則是76%。

產品面上，Claude in Excel可直接協助規畫分析流程、編輯樞紐分析表和圖表，降低跨檔案操作負擔。研究預覽版Claude in PowerPoint則可讀取簡報版型和母片，自動生成或修改投影片。桌面工具Cowork可在授權下，存取指定資料夾，同時處理多份文件與任務，並支援外掛整合財務流程。市場反應上，多家傳統企業軟體股在這項消息公布後出現下跌，顯示AI對既有工作軟體版圖的衝擊正在擴大。（詳全文）

Mistral 語音轉文字 會議

Mistral揭露新一代語音轉文字模型

法國AI新創Mistral推出語音轉文字系列模型Voxtral Transcribe 2，鎖定會議逐字稿、客服通話和即時語音互動等需求。這次發布兩款模型：適合大量錄音處理的Voxtral Mini Transcribe V2，以及主打即時應用的Voxtral Realtime。官方表示，即時模型的轉錄延遲可設定到200毫秒以下。

Voxtral Realtime採用串流架構，音訊一進來就同步產生文字，而不是先切段再處理。開發者可依需求，調整速度和準確度。模型權重採Apache 2.0授權，企業可自行部署在本地或邊緣設備。

批次模型則新增說話者分離、詞級時間戳記與語境偏移功能，可加入最多100個關鍵詞，幫助辨識人名或專業術語，方便整理多人會議。官方公布，模型在FLEURS測試中詞錯誤率約4%，API定價為每分鐘0.003美元。Mistral也在Mistral Studio新增音訊試用介面，讓團隊可上傳檔案、即時檢視轉錄效果。（詳全文）

GitHub 基礎設施 AI代理

GitHub把AI代理變成開發基礎設施

GitHub旗下工具Agent HQ開始支援Claude和Codex模型（公開預覽版），意味著GitHub正把多家AI模型納入核心開發流程，而不是只當作外部輔助工具。Copilot Pro+和Copilot Enterprise用戶可在GitHub網站、行動版與VS Code啟動代理工作階段。

這次的更新關鍵，在於讓不同代理直接參與既有協作流程。開發者可將議題指派給代理，或要求其在Pull Request中分析、提出修改建議，所有對話、變更和日誌都會保留在儲存庫內，納入原本的審查與追蹤機制，減少工具切換的麻煩。

VS Code 1.109以上版本可支援本機互動與雲端自動化兩種模式，長時間任務可交由GitHub端執行。企業管理者則能集中設定模型存取權限和安全政策。GitHub也預告，接下來將引進更多AI供應商，來打造多代理並存的開發環境。（詳全文）

104人力銀行 推薦履歷

104人力銀行揭3項AI應用，推薦與履歷健檢加速工作媒合

104人力銀行日前公布旗下3項AI亮點應用，包括AI工作／人才推薦、AI訊息分類和AI履歷健檢。這些功能結合自研演算法與開源、商用大型語言模型（LLM），目標是要提高求職者與企業間的雙向媒合效率。

在推薦機制方面，AI會根據求職者瀏覽行為、履歷內容與偏好，自動推送高關聯職缺；企業端則可每日收到符合職缺條件的人才建議，並透過回饋持續優化模型。104統計，透過AI推薦獲得面試邀約的機率，是自行搜尋的3.2倍，企業端邀約同意率也約為傳統方式的3倍。

為降低溝通落差，104也推出AI訊息分類，將企業面試邀約分為高關聯的「專屬」與其他「一般」訊息，協助求職者快速判斷優先順序。此外，AI履歷健檢可在約3秒內給出客製化建議，引導補強關鍵經歷與成果，而非直接代寫。近4成使用者依建議更新履歷，整體面試機會提升約20%。（詳全文）

Databricks LLM 評審

Databricks發表MemAlign，用雙記憶機制強化LLM評審能力

Databricks旗下Mosaic AI Research團隊發表MemAlign，是一套以「雙記憶系統」累積專家回饋的大型語言模型（LLM）評審對齊框架，並已整合進開源模型管理平臺MLflow。。

企業常讓LLM擔任評審，檢查客服機器人或代理程式輸出是否合規，但通用模型的判斷往往和領域專家標準有落差。Mosaic指出，單靠提示詞，容易前後不一致，若靠微調，則成本高，因此改採記憶機制累積專家自然語言回饋。

MemAlign把可重複使用的原則存入「語意記憶」，把具體案例保留在「情節記憶」，新任務評估時會同時檢索兩類記憶作為參考，不需更新模型權重。在Prometheus-eval測試中，僅用最多50筆回饋樣本，即可在約40秒內完成對齊，成本約0.03美元。不過推論時需進行向量搜尋，單筆評估可能增加約1秒延遲。目前，MemAlign已可在MLflow與Databricks平臺使用。（詳全文）

圖片來源／OpenAI、Anthropic、104人力銀行、Databricks

AI趨勢近期新聞

1. Google將Data Commons MCP改為雲端託管，免本機部署即可查詢公開統計資料

資料來源：iThome整理，2026年2月

重點新聞（0206～0212）

熱門新聞