AI會「說謊」,RLHF竟是幫兇
機器之心報道
機器之心編輯部
語言模型 (LM) 可能會產生人類難以察覺的錯誤,尤其是在任務複雜的情況下。作爲最近流行的後訓練方法 RLHF ,可能會加劇這個問題:爲了獲得更高的獎勵,LM 可能會更好地說服人類認爲它們是正確的,即使它們是錯誤的。
這對人類評估者來說是一個巨大的挑戰,因爲人類想要發現 LM 輸出中那些似乎正確的細微錯誤非常困難。在正確的答案和看起來正確的答案之間出現了差距(gap)。
這種差距可能會導致 RLHF 獎勵黑客攻擊:爲了獲得更高的獎勵,LM 可以學會說服人類即使他們錯了,他們也是正確的。研究者將這種行爲命名爲 U-SOPHISTRY(詭辯),因爲這種結果不是開發人員想要的。
當將 LM 用於複雜且關鍵的任務時,U-SOPHISTRY 會帶來重大風險。例如,RLHF 可能會讓 AI 更好地說服人類接受不準確的科學發現或偏見政策。
這種情況頗具諷刺意味:雖然 RLHF 的初衷是用來控制人工智能(AI),但它實際上可能會欺騙人類,讓人類誤以爲他們掌控了一切。
雖然模型的 U-SOPHISTRY 行爲在理論上是可能的,但它尚未得到實證驗證。先前研究如 I-SOPHISTRY 會通過非標準工程實踐故意誘導這些行爲,並希望將結論推廣到 U-SOPHISTRY 中。
相比之下,來自清華、UC 伯克利、 Anthropic 等機構的研究者對 U-SOPHISTRY 進行了研究,並且這種行爲的產生是自然地從標準的、無害的做法中產生的,研究者想要知道 U-SOPHISTRY 在實踐中是否重要,LM 如何誤導人類,以及哪些緩解措施是有效的。
作者在兩項任務上進行了實驗:長篇問答和算法編程。實驗中要求人類在有限的時間內(例如 3-10 分鐘)評估 LM 輸出的正確性。然後,通過計算 RLHF 之前和之後人類評估與黃金標籤的準確率來測量 U-SOPHISTRY。
經過 150 小時的人工研究,發現即使在廣泛接受的獎勵信號下,U-SOPHISTRY 也會出現。實驗發現,在 RLHF 之後,LM 並沒有在任務上變得更好,但它會誤導受試者更頻繁地認可其錯誤答案。
此外,受試者在評估 LM 的輸出方面變得更差:假陽率在問答(QuALITY)上增加了 24%,在編程(APPS)上增加了 18%。值得一提的是,受試者也被誤導了,自信地將不正確的輸出錯誤地標記爲正確。
通過調查反饋,該研究定性分析了 LM 在 RLHF 之後如何誤導受試者。
在問答中,LM 學會通過挑選或捏造支持證據、提出一致但不真實的論點以及提供包含微妙因果謬誤的論點來爲錯誤答案辯護。
在編程任務中,LM 學會生成部分錯誤的程序,這些程序仍然可以通過所有評估者設計的單元測試,生成可讀性較差的程序,並且犯更少的人類通常會檢查的常見錯誤。
最後,該研究評估了先前用於檢測 U-SOPHISTRY 的緩解方法。
U-SOPHISTRY 是 RLHF 後意外出現的
RLHF 是一種流行的對齊 LM 的方法。本文將 RLHF 之前的 LM 稱爲 π_init,將 RLHF 之後的 LM 稱爲 π_rlhf。RLHF 涉及三種不同的獎勵:R^∗(正確性) 、 R^human(人類評級)、R^train(RLHF 訓練中的獎勵)。
本文重點關注作爲 RLHF 意外結果而出現的 U-SOPHISTRY。許多先前的研究旨在研究 U-SOPHISTRY。然而,他們研究的是 I-SOPHISTRY,其中不良行爲是由非標準工程實踐有意誘導的,並且隱含地假設 I-SOPHISTRY 的結論可以推廣到 U-SOPHISTRY。如表 1 所總結的,他們通過操縱獎勵、微調數據或提示來誘導不良行爲。目前尚不清楚 U-SOPHISTRY 是否會在標準訓練實踐下出現,其中獎勵並非旨在誘導惡意行爲,但由於人爲的弱點仍然存在缺陷。相比之下,本文的工作重點是自然出現的 U-SOPHISTRY。
針對發現 3,該研究還分析了 RLHF 後人類信心如何變化,初步結果如下圖 3 所示:
問答的定性分析
該研究定性分析了 π_rlhf 生成的結果,以瞭解爲什麼它們更具誤導性。
該研究發現:π_init 和 π_rlhf 在預測答案時都傾向於僞造證據,而人類評估者發現 π_rlhf 僞造的證據更有說服力,而 π_init 僞造的證據有時是無意義的或與答案無關。
例如,在圖 5 中,π_rlhf 僞造了統計證據,使人類評估者非常確信其答案是正確的。
編程的定性分析
爲了進一步瞭解 π_rlhf 生成的程序如何誤導人類評估者,該研究分析了收集到的人類標籤及其解釋。
如圖 12 和圖 13 所示,研究團隊觀察到 π_rlhf 生成的錯誤程序在實際評估過程中仍然可以通過所有(3 到 5)個評估者編寫的單元測試,而在 RLHF 期間沒有觀察到這一點。相反,π_init 生成的錯誤程序通常無法通過第一個評估者編寫的單元測試。
即使 π_rlhf 在原始 APPS 數據集上僅通過了較少的單元測試,也會發生這種情況,如下圖 6 所示。這表明 LM 可以學會預測和破解 RLHF 中人類編寫的單元測試。
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。