強化學習 | iThome

| Cursor | Composer 2.5 | 程式開發代理 | 強化學習 | Kimi K2.5

Cursor釋出Composer 2.5新模型，改善長時間任務、複雜指令與協作開發表現

Cursor推出Composer 2.5程式開發代理模型，改善長時間任務處理、複雜指令遵循與協作表現，並以文字回饋強化學習、更多合成任務及訓練架構調整，提升多步驟開發工作的穩定性

2026-05-19

| ChatGPT Atlas | 代理模式 | 提示詞注入 | 自動化紅隊 | 強化學習

ChatGPT Atlas代理模式更新，引入對抗式訓練防提示詞注入攻擊

OpenAI內部自動化紅隊用強化學習找出新提示詞注入手法，因此更新ChatGPT Atlas代理模式，加入對抗式訓練檢查點與防護，並提醒視任務需求選擇登出執行並核對高風險動作

2025-12-25

| IT周報 | 機器人 | 生物電腦 | AI | 強化學習 | 微軟 | VS Code | 數發部 | 資料

AI趨勢周報第269期：只靠合成資料，也能訓練精準擺放物體的機器人

來自喬治亞理工學院等機構的研究團隊，發表一項機器人訓練方法AnyPlace；澳洲新創用人腦神經元打造生物電腦；數發部瞄準AI資料需求，研擬草案要解放更多資料價值；數發部揭AI算力、行銷和資金策略；VS Code 1.98版推代理模式

2025-03-09

| ACM圖靈獎 | 強化學習 | Andrew Barto | Richard Sutton | AI

2024圖靈獎揭曉，強化學習奠基者Andrew Barto與Richard Sutton獲獎

2024圖靈獎頒發給Andrew Barto與Richard Sutton，表揚兩人建立強化學習核心理論與演算法，推進人工智慧自主決策實務應用

2025-03-06

| DeepSeek | MIT | 強化學習

中國DeepSeek開源其R1推論模型，數學、程式開發表現緊追OpenAI o1

中國DeepSeek釋出推論模型DeepSeek-R1，採用強化學習技術，突破傳統監督微調對大規模標註資料的依賴，在數學與程式開發測試中表現出色，部分領域已接近或超越OpenAI o1模型

2025-01-22

| Nvidia | GPT-4 | Eureka | 機器人 | 強化學習

Nvidia新AI系統能訓練機器手轉筆、開抽屜等動作

Nvidia新AI系統Eureka以Open AI GPT-4為基礎，生成出的獎賞程式可從事機器人的嘗試錯誤學習，訓練實體機器人執行開抽屜或拿剪刀等近30種複雜動作

2023-10-23

| IT周報 | AI | 強化學習 | RLHF | LLM | 生成式AI | Python | 微軟 | Excel | 程式開發

AI趨勢周報第225期：DeepMind發表新演算法ReST，不需人為介入強化學習

人類回饋強化學習（RLHF）是當今LLM的重要訓練方法，但DeepMind新演算法ReST可免去人為介入；Hugging Face發布圖文通吃的多模態模型；文字、語音都能懂！Meta開源多語言翻譯模型；微軟在Excel加入Python支援；資料不外洩！Hugging Face推出企業級自託管程式開發助手

2023-08-24

| 假新聞 | 中研院 | 強化學習 | 反事實解釋

中研院用強化學習開發實驗平臺來打擊假新聞，最快今年上線

中研院資訊科學研究所研究員古倫維分享中研院假新聞研究成果，團隊以自然語言處理（NLP）、強化學習等技術，來辨識新聞內容、規畫最佳投放正確資訊的時機點，要給接觸假新聞的讀者正確資訊，打造為一套實驗平臺來打擊假新聞，最快今年上線。

2022-11-20

| Everyday Robot | Alphabet | 機器人 | AI | 機器學習 | 強化學習 | 協同學習

Alphabet的Everyday Robot開始在自家辦公室執行打掃任務

透過強化學習、協同學習的機器學習演算法，Alphabet X實驗室強調其通用型學習機器人Everyday Robot執行特定任務能力更成熟，能拿抹布擦桌子、開門、將椅子歸位

2021-11-22

| 強化學習 | Deepmind | 機器人

DeepMind釋出可改進機器人堆疊物體能力的基準測試RGB-Stacking

DeepMind所發布的RGB-Stacking基準測試，提供技能掌握以及技能泛化兩種難度的堆疊任務，而DeepMind的機器人已經可以在真實世界的技能掌握任務，達到82％的成功率

2021-10-13

| TPU | 強化學習 | google | 晶片設計 | 製造業 | AI | 雲端 | AI不確定性

AI趨勢周報第171期：TPU v4已比超級電腦快，Google如何用AI自動設計下一代TPU？

Google用強化學習來自動進行晶片佈局規畫，產生晶片平面圖，6小時內就能完成、比人類數個月還要快，Google也用這個方法研發下一代TPU v5；Google雲端調查發現，全球製造業將三分之一IT支出花在AI上；ML推理引擎ONNX Runtime 1.8支援網頁AI推理了！

2021-06-12

| 微軟 | AI | CyberBattleSim | 強化學習 | 資安 | 攻防演練 | 網路攻擊模擬

微軟釋出AI網路攻防模擬工具

微軟釋出內部AI模擬研究工具的Python原始碼，讓安全研究人員模擬建構網路防禦環境，以阻擋AI控制的攻擊

2021-04-09

iThome 研討會

IT EXPLAINED 數位轉型攻略 VIII

GenAI 加速企業創新落地，更需要全新 IT 戰略

日期: 即日起~06/24

Agentic Automation Day 企業自動化 × Agent

聚焦 AI Agent 如何重塑企業自動化模式，邀請來自企業實務現場的專家，分享從架構設計、開發實戰到落地經驗的第一手洞察。

日期: 8/6 (四)

重新想像開發：Hello World 2026徵稿啟動

AI 技術持續加速演進，軟體開發的每一環節都面臨重構。這不只是工具的進化，更是我們對「開發」這件事的重新想像。我們相信，最前線開發者的實作心得，是推動技術進步最強大的力量。

日期: 投稿截止：2026 / 7 / 17 (五)

【 AI Enterprise Summit 2026 】

掌握 AI 實戰佈局，驅動企業價值轉型 2026 AI Enterprise Summit 聚焦五大技術與戰略支柱，帶領企業從實驗室走向物理世界，從單點應用走向全面轉型。

日期: 07/02 (三) 09:00 ~ 17:00