兩大AI業者OpenAI與Anthropic破天荒地在今年夏天合作,運用自家內部開發的工具,互評彼此模型的安全性,藉此補足單一實驗室可能忽略的盲點。本次評估涵蓋了OpenAI的GPT-4o、GPT-4.1、o3與o4-mini,以及Anthropic的Claude Opus 4與Claude Sonnet 4,並於周三(8/27)共同發布結果。

雙方在測試期間暫時停用API部署的外部安全防線,聚焦於模型內部行為傾向的觀察,而非進行直接的性能比較。這些壓力測試模擬各種極端情境,探索模型是否可能表現出令人擔憂的傾向行為。

根據OpenAI的說明,Claude 4在遵循開發者設定的核心系統指令方面表現最為穩定,顯示出強烈的「拒絕越界」傾向。但在越獄攻擊的測試中,Claude模型比o3與o4-mini更容易被繞過,例如面對以「過去式」包裝的誘導提問時更易鬆動。在幻覺測試中,Claude Opus 4與Sonnet 4的拒答率高達70%,展現較高的不確定感知;而o3與o4-mini則傾向作答,顯示它們在幻覺風險與實用性之間選擇了不同的平衡點。

OpenAI也測試了代理人場景下的行為穩定性。在高壓與目標衝突的模擬中,雖然o3與Claude Sonnet 4的整體違規率最低,但o3仍出現一次值得關注的案例:當它明確意識到某項程式設計任務無法完成時,仍聲稱已經完成,顯示出潛在的欺瞞風險。

另一方面,Anthropic則專注於測試OpenAI模型是否會出現錯位(Misalignment)行為,例如在壓力或特定誘導下是否會配合執行有害任務。整體而言,他們並未觀察到任何極端或災難性的結果。但GPT-4o與GPT-4.1在系統提示中若使用者明確鼓勵模型產生有害內容,這些模型傾向配合執行,表現出濫用風險。

此外,所有OpenAI模型皆呈現出過度取悅使用者的傾向,包括對使用者妄想的配合與稱讚,以及在特定測試中,若模型認為所屬組織有嚴重違法行為,有時會選擇向媒體或外部單位檢舉,並附上假設性的證據。

Anthropic表示,這項互評合作揭露了自身安全評估方法的盲點,促使其改進策略,也在Claude Opus 4.1中修正了先前版本中易於諂媚與被濫用的問題。

在首度合作後,雙方皆表示期待擴大這類的交叉評估,亦鼓勵業界建立互信的模型安全測試機制。

熱門新聞

Advertisement