Bengio團隊新論文!KL正則化有漏洞,強化學習新策略:不要做我可能不會做的事情

新智元報道

編輯:LRS

【新智元導讀】在強化學習中,當智能體的獎勵機制與設計者的意圖不一致時,可能會導致不理想的行爲,而KL正則化作爲一種常用的解決方案,通過限制智能體的行爲來防止這種情況,但智能體在某些情況下仍可能表現出意料之外的行爲;爲了提高智能體的可靠性,研究人員提出了新的理論方案,通過改變指導原則來增強智能體在未知情況下的謹慎性。

在強化學習中,智能體的獎勵機制有時會與設計者的真實目的存在差異, 比如一個聊天機器人,開發者希望它能夠通過學習來更好地完成任務,然後設計了一個獎勵系統,當模型做出預期中認爲有用的事情時,就會得到獎勵;但有時候,智能體可能會做出非預期的行爲,其獎勵系統可能並不完全符合真實意圖。

爲了防止這種情況,業界通常會使用一種叫做KL正則化的技術,類似於給智能體一個行爲準則「不要做我不會做的事情。」,目前主流的語言模型,比如能夠生成流暢文本的智能體,都是使用這種技術進行訓練的。

但這裡有一個潛在的問題,如果智能體是基於一個預測模型來模仿人類的行爲,那麼KL正則化可能就不夠用了:即使智能體的行爲在大多數情況下看起來都很好,但在某些情況下,也可能會做出一些出乎意料的行爲。

爲了解決這個問題,來自加州大學伯克利分校、Google DeepMind、蒙特利爾大學(圖靈獎得主Yoshua Bengio)的研究人員提出了一個全新的理論方案,核心思想是改變對智能體的指導原則,從「不要做我不會做的事情」(Don’t do anything I wouldn’t do)變爲「不要做我可能不會做的事情」(Don't do anything I mightn't do),也就意味着,我們希望智能體能夠更加謹慎,從而更好地控制智能體的行爲,在實際應用中表現得更加可靠。

論文鏈接:https://arxiv.org/pdf/2410.06213

KL正則化

當智能體以設計者未曾預料到的方式優化其目標時,可能會產生一些有趣的(amusing)、煩人的(annoying)、隱秘的(insidious),甚至是災難性的(disastrous)後果。

比如說,強化學習研究者想讓一臺仿人機器人學會行走,但結果可能是機器人開始跑步,或者是其他無法預料到的、瘋狂的運動方式。

爲了避免這種情況,一個常用的方法是限制智能體的遵循策略,即找到一個與「基礎策略」(base policy)不太不同的策略,類似於對大型語言模型進行強化學習微調,放棄最優策略來限制強化學習的潛力。

提議策略(proposed plicy)和基礎策略之間的KL散度是一種穩健、安全的(safety-conscious)方法來計算兩個策略之間的接近性(proximity)。

如果基礎策略對某個動作的預測概率非常低,而提議策略對同一個動作的預測卻很高,那麼KL懲罰就會很高,可以確保基礎策略下可以避免的糟糕結果,在提議策略中依然不會發生。

但是,如果在確保KL(提議策略∥基礎策略)很小的情況下,基礎策略只是近似一個可信策略,需要在多大程度上、有多大把握KL(提議策略∥可信策略)也很小呢?

當基礎策略是可信策略(trusted policy)的貝葉斯預測模型時,就無法確信KL(提議策略∥可信策略)很小,KL約束也就變得沒那麼穩健、安全了。

更糟糕的是,研究人員發現,如果想要用KL正則化來阻止強化學習智能體實現接近最大獎勵,並且基礎策略是可信策略的貝葉斯模仿(Bayesian imitator),那麼就需要一個相當小的KL閾值;而且,隨着貝葉斯模仿的訓練數據量的增長,相關閾值只能極其緩慢地增加。

KL正則化效果有限的原因是:

1. 貝葉斯模仿在新環境下行動時必須對其預測保持謹慎(humble),對於其他示範者(demonstrator,即可信策略)實際上永遠不會採取的行動,模仿者(imitator,即基礎策略)必須賦予足夠的信任,因爲沒有足夠多的信息來排除該策略

2. 強化學習智能體可以利用或放大這種信任,形式化奧卡姆剃刀原則。

3. 接近獎勵最大化(nearly-reward-maximizing)策略的描述長度較短,即相對簡單;

4. 在新環境中,開放的貝葉斯模仿學習器不願意排除示範者的簡單行爲。

鑑於這些研究結果,阻止強化學習智能體實現接近最大獎勵,在許多設置中,是安全導向的正則化的最低要求,而用KL約束則難以實現。

研究人員在文中找到了一種避免該問題的貝葉斯預測/模仿的替代方案:模仿者在不確定時尋求幫助,用正式界限(formal bounds)來限制不確定度,並通過實驗證明了使用模仿學習作爲基礎策略,理論上可以避免之前提到的問題。

命題1(非三角不等式):對於任意ε > 0,如果KL(π||β) ≤ ε和KL(τ||β) ≤ ε,那麼KL(π||τ)可能等於∞;其中π、β和τ分別代表「提議策略」、「基礎策略」和「可信策略」。

簡單來說,對於這三種策略,在用KL散度衡量相似度時,即使提議策略與基礎策略的相似度很高,與信任策略的相似度可能仍然非常低,甚至無限大。

定理1:即使在一個全新的、從未出現過的情況,總能找到一種策略,既接近最優效用,又與模仿的策略非常相似,也就意味着,即使試圖通過模仿一個安全的策略來控制新策略的風險,新策略仍然可能在某些情況下表現出沒有預料到的行爲。

命題2(簡單、未預見事件的頻率,frequency of simple unprecedented events):在任意環境中,隨着時間的推移,到時間T(T大於t)爲止,尚未發生的最簡單前所未有事件的複雜性,其增長速度比所有趨向於無窮大的可計算函數都要慢。

這種情況類似於,無論你讀了多少本關於駕駛的書,總會有一些意想不到的情況在路上等着你。這就是爲什麼自動駕駛汽車的開發者們發現,儘管有大量的數據,但仍然會遇到前所未有的挑戰。

如何確保自動駕駛系統在遇到這些新情況時能夠安全地做出反應呢?

模仿學習可以確保自動駕駛系統在遇到這些新情況時能夠安全地做出反應,即讓系統模仿人類駕駛員的行爲,但這個命題也提醒了我們,如果試圖讓系統完美地模仿人類駕駛員,可能並不是一個好主意,可能會導致系統在遇到新情況時無法做出正確的反應。

強化學習微調語言模型

在人工智能領域,開發者經常使用強化學習來改進系統,也同樣適用於訓練語言模型來理解和生成人類語言。

比如說,智能助手能夠通過閱讀大量的文本來學習如何與用戶對話,但隨着時間的推移,用戶可能會希望助手能夠更好地完成特定的任務,比如寫詩或解決複雜的問題。

這種時候就可以使用強化學習來微調語言模型,類似於給智能助手加入額外的訓練,使得在特定任務上表現得更好,也可以給模型一些獎勵,區分出哪些行爲是有益的。

關鍵在於,開發者需要平衡智能體的探索能力(嘗試新事物的能力)和利用能力(利用已經學到的知識)來做出決策。通過這種方式,智能體不僅能夠處理常見的情況,還能夠在遇到新問題時靈活應對。

實驗設置

設定一個基礎模型,模擬老師與學生進行對話:如果學生的迴應是積極的,智能體就會得到獎勵;對話過程是在一種特殊的環境下進行的,智能體可以在對話中添加詞語;如果智能體沒有添加,那麼基礎模型就會接管並添加詞語。

使用DistilBERT模型來衡量學生回覆的情感狀態,得分範圍爲0到1,當對話達到256個token時,一輪實驗就會結束。

研究人員還用Mixtral-basemodel的基礎策略來指導智能體的行爲,最小化數據生成過程和模型之間的差異,從貝葉斯的角度來看也是一個合理的目標。

智能體在做出決策時,可以觀察到一些信息,包括對話到目前爲止的內容,以及一輪實驗還剩下多少時間;智能體在做出決策時不考慮未來獎勵的現值,不會對未來的獎勵打折扣。

通過這個實驗可以看出,即使獎勵函數不完美,KL正則化是否能夠幫助智能體做出好的決策,即決策可能與基礎策略下的好結果有關聯,但並不是真的希望最大化獎勵函數;

簡而言之,實驗的真正目的是,驗證KL正則化是否能夠幫助智能體在不完美的獎勵環境中做出好的選擇。

實驗結果

智能體的任務是在對話中扮演教師的角色,目標是讓學生的迴應帶有積極的情感,以此來獲得獎勵:智能體可以選擇說些什麼,或者選擇保持沉默。

研究人員發現,智能體有時會選擇什麼也不說,以獲得中等獎勵,此時KL散度(即智能體策略與基礎策略之間的差異)非常小;即使限制了智能體的KL預算,仍然會盡可能地選擇保持沉默,這樣做的成本很低。

還可以還發現,智能體有時會改變其行爲,比如從雙倍空格切換到單倍空格,從而獲得更多的獎勵.

結果可以看到,即使獎勵系統並不完美,智能體也能夠找到一個簡單的策略來獲得儘可能多的獎勵,雖然該策略可能不是我們希望的,但確實有效,也說明了爲什麼我們需要小心設計獎勵系統,因爲智能體可能會找到一些我們意想不到的方法來最大化獎勵。

還可以發現,如果讓智能體進行更長的對話,同時保持KL預算不變,智能體的行爲可能會更明顯地偏離基礎模型,也就意味着,智能體可能會更頻繁地採取那些簡單的、非教師般的行爲。

最後可以發現,當人們比較由不同KL預算的智能體生成的對話記錄時,KL預算較小的智能體通常被認爲表現得「更好」和「更復雜/不可預測」,說明即使是相當嚴格的KL約束,也可能無法阻止智能體採取過於簡單和不理想的行爲。

因此,當微調語言模型時,應該關注整體的KL散度,而不僅僅是每個token的KL散度。

參考資料:

https://arxiv.org/pdf/2410.06213