| ChatGPT Atlas | 代理模式 | 提示詞注入 | 自動化紅隊 | 強化學習

ChatGPT Atlas代理模式更新,引入對抗式訓練防提示詞注入攻擊

OpenAI內部自動化紅隊用強化學習找出新提示詞注入手法,因此更新ChatGPT Atlas代理模式,加入對抗式訓練檢查點與防護,並提醒視任務需求選擇登出執行並核對高風險動作

2025-12-25

| IT周報 | 機器人 | 生物電腦 | AI | 強化學習 | 微軟 | VS Code | 數發部 | 資料

AI趨勢周報第269期:只靠合成資料,也能訓練精準擺放物體的機器人

來自喬治亞理工學院等機構的研究團隊,發表一項機器人訓練方法AnyPlace;澳洲新創用人腦神經元打造生物電腦;數發部瞄準AI資料需求,研擬草案要解放更多資料價值;數發部揭AI算力、行銷和資金策略;VS Code 1.98版推代理模式

2025-03-09

| ACM圖靈獎 | 強化學習 | Andrew Barto | Richard Sutton | AI

2024圖靈獎揭曉,強化學習奠基者Andrew Barto與Richard Sutton獲獎

2024圖靈獎頒發給Andrew Barto與Richard Sutton,表揚兩人建立強化學習核心理論與演算法,推進人工智慧自主決策實務應用

2025-03-06

| DeepSeek | MIT | 強化學習

中國DeepSeek開源其R1推論模型,數學、程式開發表現緊追OpenAI o1

中國DeepSeek釋出推論模型DeepSeek-R1,採用強化學習技術,突破傳統監督微調對大規模標註資料的依賴,在數學與程式開發測試中表現出色,部分領域已接近或超越OpenAI o1模型

2025-01-22

| Nvidia | GPT-4 | Eureka | 機器人 | 強化學習

Nvidia新AI系統能訓練機器手轉筆、開抽屜等動作

Nvidia新AI系統Eureka以Open AI GPT-4為基礎,生成出的獎賞程式可從事機器人的嘗試錯誤學習,訓練實體機器人執行開抽屜或拿剪刀等近30種複雜動作

2023-10-23

| IT周報 | AI | 強化學習 | RLHF | LLM | 生成式AI | Python | 微軟 | Excel | 程式開發

AI趨勢周報第225期:DeepMind發表新演算法ReST,不需人為介入強化學習

人類回饋強化學習(RLHF)是當今LLM的重要訓練方法,但DeepMind新演算法ReST可免去人為介入;Hugging Face發布圖文通吃的多模態模型;文字、語音都能懂!Meta開源多語言翻譯模型;微軟在Excel加入Python支援;資料不外洩!Hugging Face推出企業級自託管程式開發助手

2023-08-24

| 假新聞 | 中研院 | 強化學習 | 反事實解釋

中研院用強化學習開發實驗平臺來打擊假新聞,最快今年上線

中研院資訊科學研究所研究員古倫維分享中研院假新聞研究成果,團隊以自然語言處理(NLP)、強化學習等技術,來辨識新聞內容、規畫最佳投放正確資訊的時機點,要給接觸假新聞的讀者正確資訊,打造為一套實驗平臺來打擊假新聞,最快今年上線。

2022-11-20

| Everyday Robot | Alphabet | 機器人 | AI | 機器學習 | 強化學習 | 協同學習

Alphabet的Everyday Robot開始在自家辦公室執行打掃任務

透過強化學習、協同學習的機器學習演算法,Alphabet X實驗室強調其通用型學習機器人Everyday Robot執行特定任務能力更成熟,能拿抹布擦桌子、開門、將椅子歸位

2021-11-22

| 強化學習 | Deepmind | 機器人

DeepMind釋出可改進機器人堆疊物體能力的基準測試RGB-Stacking

DeepMind所發布的RGB-Stacking基準測試,提供技能掌握以及技能泛化兩種難度的堆疊任務,而DeepMind的機器人已經可以在真實世界的技能掌握任務,達到82%的成功率

2021-10-13

| TPU | 強化學習 | google | 晶片設計 | 製造業 | AI | 雲端 | AI不確定性

AI趨勢周報第171期:TPU v4已比超級電腦快,Google如何用AI自動設計下一代TPU?

Google用強化學習來自動進行晶片佈局規畫,產生晶片平面圖,6小時內就能完成、比人類數個月還要快,Google也用這個方法研發下一代TPU v5;Google雲端調查發現,全球製造業將三分之一IT支出花在AI上;ML推理引擎ONNX Runtime 1.8支援網頁AI推理了!

2021-06-12

| 微軟 | AI | CyberBattleSim | 強化學習 | 資安 | 攻防演練 | 網路攻擊模擬

微軟釋出AI網路攻防模擬工具

微軟釋出內部AI模擬研究工具的Python原始碼,讓安全研究人員模擬建構網路防禦環境,以阻擋AI控制的攻擊

2021-04-09

| Deepmind | 強化學習 | 元學習 | 微軟 | 防詐欺 | GAN | 超高解析度 | AI | IT周報

AI趨勢周報第138期:DeepMind新方法可自動產生強化學習演算法

DeepMind最新研究論文描述新設計的後設學習(Meta learning)架構,透過與環境互動來產生強化學習演算法,團隊也將生成的演算法用於Atari遊戲,達到非平凡等級;知名動畫公司皮克斯用GAN來產生超高解析度電影畫面,降低算圖農場的運算負荷;微軟鎖定零售業,推出Dynamics 365防詐欺新功能。

2020-07-23