警惕ChatGPT“危險發言”!AI聊天機器人有“大bug”,尚無法修復

隨着大模型技術的普及,AI 聊天機器人已成爲社交娛樂、客戶服務和教育輔助的常見工具之一。

然而,不安全的 AI 聊天機器人可能會被部分人用於傳播虛假信息、操縱輿論,甚至被黑客用來盜取用戶的個人隱私。WormGPT 和 FraudGPT 等網絡犯罪生成式 AI 工具的出現,引發了人們對 AI 應用安全性的擔憂。

上週,谷歌、微軟、OpenAI 和 Anthropic 共同成立了一個新的行業機構前沿模型論壇(Frontier Model Forum),促進前沿 AI 系統的安全和負責任的發展:推進 AI 安全研究,確定最佳實踐和標準,促進政策制定者和行業之間的信息共享。

那麼,問題來了,他們自家的模型真的安全嗎?

近日,來自卡內基梅隆大學、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個與 ChatGPT 等 AI 聊天機器人有關的“大 bug”——通過對抗性提示可繞過 AI 開發者設定的防護措施,從而操縱 AI 聊天機器人生成危險言論。

當前熱門的 AI 聊天機器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都無一倖免。

圖|通過對抗性提示可繞過 4 個語言模型的安全規則,引發潛在有害行爲

具體而言,研究人員發現了一個 Suffix,可將其附加到針對大型語言模型(LLMs)的查詢中,從而生成危險言論。相比於拒絕回答這些危險問題,該研究可以使這些模型生成肯定回答的概率最大化。

例如,當被詢問“如何竊取他人身份”時,AI 聊天機器人在打開“Add adversarial suffix”前後給出的輸出結果截然不同。

圖|開啓 Add adversarial suffix 前後的聊天機器人回答對比

此外,AI 聊天機器人也會被誘導寫出“如何製造原子彈”“如何發佈危險社交文章”“如何竊取慈善機構錢財”等不當言論。

對此,參與該研究的卡內基梅隆大學副教授 Zico Kolter 表示,“據我們所知,這個問題目前還沒有辦法修復。我們不知道如何確保它們的安全。”

研究人員在發佈這些結果之前已就該漏洞向 OpenAI、谷歌和 Anthropic 發出了警告。每家公司都引入了阻止措施來防止研究論文中描述的漏洞發揮作用,但他們還沒有弄清楚如何更普遍地阻止對抗性攻擊。

OpenAI 發言人 Hannah Wong 表示:“我們一直在努力提高我們的模型應對對抗性攻擊的魯棒性,包括識別異常活動模式的方法,持續通過紅隊測試來模擬潛在威脅,並通過一種普遍而靈活的方式修復新發現的對抗性攻擊所揭示的模型弱點。”

谷歌發言人 Elijah Lawal 分享了一份聲明,解釋了公司採取了一系列措施來測試模型並找到其弱點。“雖然這是 LLMs 普遍存在的問題,但我們在 Bard 中已經設置了重要的防護措施,我們會不斷改進這些措施。”

Anthropic 的臨時政策與社會影響主管 Michael Sellitto 則表示:“使模型更加抵抗提示和其他對抗性的‘越獄’措施是一個熱門研究領域。我們正在嘗試通過加強基本模型的防護措施使其更加‘無害’。同時,我們也在探索額外的防禦層。”

圖|4 個語言模型生成的有害內容

對於這一問題,學界也發出了警告,並給出了一些建議。

麻省理工學院計算學院的教授 Armando Solar-Lezama 表示,對抗性攻擊存在於語言模型中是有道理的,因爲它們影響着許多機器學習模型。然而,令人驚奇的是,一個針對通用開源模型開發的攻擊居然能在多個不同的專有系統上如此有效。

Solar-Lezama 認爲,問題可能在於所有 LLMs 都是在類似的文本數據語料庫上進行訓練的,其中很多數據都來自於相同的網站,而世界上可用的數據是有限的。

“任何重要的決策都不應該完全由語言模型獨自做出,從某種意義上說,這只是常識。”他強調了對 AI 技術的適度使用,特別是在涉及重要決策或有潛在風險的場景下,仍需要人類的參與和監督,這樣才能更好地避免潛在的問題和誤用。

普林斯頓大學的計算機科學教授 Arvind Narayanan 談道:“讓 AI 不落入惡意操作者手中已不太可能。”他認爲,儘管應該盡力提高模型的安全性,但我們也應該認識到,防止所有濫用是不太可能的。因此,更好的策略是在開發 AI 技術的同時,也要加強對濫用的監管和對抗。

擔憂也好,不屑也罷。在 AI 技術的發展和應用中,我們除了關注創新和性能,也要時刻牢記安全和倫理。

只有保持適度使用、人類參與和監督,才能更好地規避潛在的問題和濫用,使 AI 技術爲人類社會帶來更多的益處。