生成式AI迎合與妄想式回應風險升溫，美國多州檢察長要求第三方稽核與事故通報

圖片來源:

Ahmad Dirini on unsplash

美國多州檢察長發函Anthropic、Apple、Google、Meta、Microsoft、OpenAI與xAI等13家生成式AI與聊天機器人業者，指稱產品出現迎合（Sycophantic）與妄想式（Delusional）輸出的風險正在擴大，可能波及公共安全與兒少保護，並要求業者在2026年1月16日前回覆，確認是否承諾導入獨立第三方稽核、事故公開紀錄與通報等機制，並強化整體安全治理。

信件將迎合界定為模型為追求使用者認同而偏離真實與客觀，甚至在使用者處於焦慮、憤怒或危險念頭時，以過度同意或鼓動方式回應。妄想輸出則涵蓋虛假或可能誤導使用者的內容，以及把系統擬人化，暗示自己為類人存在的回覆。他們認為，這類輸出可能構成暗黑設計手法（Dark Patterns），例如以擬人化或操弄互動來提高黏著度，進而削弱使用者自主判斷，並在心理健康、暴力與自傷等情境放大傷害。

信中引用多起媒體報導與法院文件，稱近期已有死亡、自殺、暴力事件與精神症狀惡化等案例，被外界指與聊天機器人的回應互動有關。更讓檢察長團隊在意的是，家長與倡議組織公開的對話截圖顯示，部分兒少註冊帳號可能接觸到性引誘、要求保密、鼓勵自殘或暴力，甚至指示停止既有處方心理健康用藥並教導如何對家長隱瞞等內容。

檢察長提醒各州消費者保護與兒童線上隱私等規範，要求業者揭露風險、避免缺陷產品行銷、不得從事不公平或具欺瞞性的做法，並提到部分州刑事法可能涵蓋教唆犯罪、引導自殺或誘導未成年人等情節，另點名無照提供心理健康建議的合規風險。

信中要求業者在產品對外提供前進行合理的安全測試，建立針對迎合與妄想式輸出的政策、程序與人員訓練，並在輸入介面同一畫面提供清楚且常駐的風險警示。同時，要求業者接受獨立第三方稽核與兒少安全影響評估，建立公開事故紀錄與回應時程，並在偵測到高風險輸出時加速修正與告知使用者，信中也點出基於人類回饋的強化學習（RLHF）要是過度依賴短期回饋，可能把討好放大為模型行為，要求業者釐清營收最佳化與安全決策的界線，指定具名高層承擔輸出安全責任。

熱門新聞