OpenAI與Anthropic互評彼此模型的安全性

兩大AI業者OpenAI與Anthropic破天荒地在今年夏天合作，運用自家內部開發的工具，互評彼此模型的安全性，藉此補足單一實驗室可能忽略的盲點。本次評估涵蓋了OpenAI的GPT-4o、GPT-4.1、o3與o4-mini，以及Anthropic的Claude Opus 4與Claude Sonnet 4，並於周三（8/27）共同發布結果。

雙方在測試期間暫時停用API部署的外部安全防線，聚焦於模型內部行為傾向的觀察，而非進行直接的性能比較。這些壓力測試模擬各種極端情境，探索模型是否可能表現出令人擔憂的傾向行為。

根據OpenAI的說明，Claude 4在遵循開發者設定的核心系統指令方面表現最為穩定，顯示出強烈的「拒絕越界」傾向。但在越獄攻擊的測試中，Claude模型比o3與o4-mini更容易被繞過，例如面對以「過去式」包裝的誘導提問時更易鬆動。在幻覺測試中，Claude Opus 4與Sonnet 4的拒答率高達70%，展現較高的不確定感知；而o3與o4-mini則傾向作答，顯示它們在幻覺風險與實用性之間選擇了不同的平衡點。

OpenAI也測試了代理人場景下的行為穩定性。在高壓與目標衝突的模擬中，雖然o3與Claude Sonnet 4的整體違規率最低，但o3仍出現一次值得關注的案例：當它明確意識到某項程式設計任務無法完成時，仍聲稱已經完成，顯示出潛在的欺瞞風險。

另一方面，Anthropic則專注於測試OpenAI模型是否會出現錯位（Misalignment）行為，例如在壓力或特定誘導下是否會配合執行有害任務。整體而言，他們並未觀察到任何極端或災難性的結果。但GPT-4o與GPT-4.1在系統提示中若使用者明確鼓勵模型產生有害內容，這些模型傾向配合執行，表現出濫用風險。

此外，所有OpenAI模型皆呈現出過度取悅使用者的傾向，包括對使用者妄想的配合與稱讚，以及在特定測試中，若模型認為所屬組織有嚴重違法行為，有時會選擇向媒體或外部單位檢舉，並附上假設性的證據。

Anthropic表示，這項互評合作揭露了自身安全評估方法的盲點，促使其改進策略，也在Claude Opus 4.1中修正了先前版本中易於諂媚與被濫用的問題。

在首度合作後，雙方皆表示期待擴大這類的交叉評估，亦鼓勵業界建立互信的模型安全測試機制。

熱門新聞