微軟員工發現DALL-E 3生成不當圖片的漏洞，遭公司下封口令

微軟基於OpenAI DALL-E 3模型提供的圖片生成服務示意圖。（圖片來源／微軟）

微軟一名員工發現OpenAI圖像生成AI模型DALL-E 3存在一用於生成暴力、色情內容的漏洞，但卻遭公司下令不得聲張，迫使員工訴諸美國會議員。

微軟軟體工程部門經理Shane Jones本周致信美國3名參眾議員，及華盛頓州檢察長Bob Ferguson陳情其遭公司封口的過程。

去年12月Jones透過獨立研究，發現OpenAI文字生成圖片的 DALL-E 3模型一項漏洞，能繞過AI護欄（guardrail），而生成暴力與露骨等不當內容。他在通報公司後，公司要求他直接向OpenAI通報。Jones在12月14日在LinkedIn上發布對OpenAI非營利董事會的公開信，說明這項漏洞會對大眾造成安全風險，呼籲OpenAI解決漏洞前，應先將之從公開網路上移除。由於Jones先前已通報微軟，且身為OpenAI的董事會觀察員，在此信上網不久後，Jones被告知，公司法務部要求他立即刪除貼文。不過在Jones刪文後，最終並未獲得法務部承諾的任何解釋與說明，並且Jones屢次溝通都未獲得公司回應。

近日網路上出現AI產生的知名歌手Taylor Swift不雅照，上周404 Media 報導，這些照片是不肖人士利用微軟工具Designer繞過生成AI護欄，而Designer底層模型正是DALL-E 3。Jones指出，這事件也是他一直擔心的；DALL-3及Microsoft Designer等產品漏洞，讓有心人士更容易濫用AI生成有害圖像，而微軟早就知道這些漏洞及可能遭到濫用。

Jones認為政府應建立AI風險通報追蹤機制，以及建立AI公司員工舉報問題的吹哨者保護。他也請求參眾議員及華盛頓州檢察長調查DALL-E 3及其他AI模型生成技術的風險，以及這些業者的公司治理及負責任AI作法。

微軟官方對《Engadget》指出，會解決員工對公司政策的疑慮，也感謝員工研究，強化最新技術的貢獻。至於AI安全護欄機制是否繞過，以及對服務或合作夥伴造成影響，微軟內部已有通報管道以進行調整及補救，也建議員工善用，在對外公開之前，讓公司先內部驗證和測試。此外微軟也說員工可透過其負責任AI辦公室建立的通報工具，來舉報AI模型的問題。

微軟並就Jones先前通報的問題澄清，經過內部研究後，判定其指出的濫用手法並無法繞過微軟所有AI生成解決方案的安全篩檢機制。微軟也表示已和該員工聯繫以解決其疑慮。

熱門新聞