又一次巨大進步!OpenAI o1登場,它靠什麼攻克複雜問題?

出品:科普中國

作者:王琛(中國科學院計算技術研究所在讀博士)

監製:中國科普博覽

編者按:爲展現智能科技動態,科普中國前沿科技項目推出“人工智能”系列文章,一窺人工智能前沿進展,迴應種種關切與好奇。讓我們共同探究,迎接智能時代。

在過去的兩年中,OpenAI的ChatGPT引爆全球。就在大家翹首以待GPT-5的發佈時,9月13日凌晨,OpenAI發佈了OpenAI o1,致力於解決複雜問題的新推理模型。

(圖片來源:OpenAI官網)

從比賽排名看OpenAI o1有多強大

上月初,OpenAI的首席執行官Sam Altman發佈了自家花園的草莓的照片。隨後,據知情人士的消息透露,OpenAI將發佈新的AI模型,內部代號爲Strawberry(草莓)。

草莓模型的前身是Q*,Q*暗示其結合了兩種著名的人工智能方法——Q-learning和A*搜索。據傳Q*過於強大的能力使得研究人員擔心它會對人類構成潛在的威脅,是此前 OpenAI內亂風波的關鍵原因之一。

Sam Altman發佈的草莓照片

(圖片來源:Sam Altman 的 X(twitter) 賬號)

OpenAI發佈的OpenAI o1模型正是草莓模型。由於它在複雜推理問題上取得的重要進步,OpenAI重新從1開始計數,將新模型命名爲OpenAI o1。據OpenAI發佈的信息,OpenAI o1可以像人類一樣,在回答問題前使用更多時間思考。因此o1模型可以通過推理在科學、編程和數學領域解決比先前更難的問題。

與先前OpenAI最新的模型GPT-4o相比,OpenAI o1在數學競賽、編程競賽,以及博士基準的科學問題中取得了顯著提高,展現了它在複雜推理任務中的強大能力。它在編程競賽 (Codeforces) 中排名89%,在美國數學奧林匹克預選賽 (AIME) 中躋身全美前500名,並且在物理、生物、化學的基準問題(GPQA)上的回答準確度超過了人類博士。

OpenAI o1在數學、編程、科學問題上和GPT-4o的對比

(圖片來源:OpenAI官網)

OpenAI o1的秘密武器——基於思維鏈的強化學習

OpenAI o1之所以能取得遠超GPT-4o的推理能力,關鍵就在於它使用了基於思維鏈(Chain of Thought)的強化學習。就像人類在回答一個困難問題之前可能會進行長時間思考一樣,OpenAI o1在嘗試解決問題時,也會使用思維鏈。通過思維鏈,模型會將任務分解成更爲簡單的步驟,一步一步進行解決,這比讓模型直接輸出問題答案通常更加準確。

其實思維鏈並不是一個新的概念,早在GPT-3發佈以前,科研人員已經發現了思維鏈可以引導大語言模型進行推理。

大語言模型使用思維鏈的示例

(圖片來源:根據參考文獻2翻譯)

上圖的示例有兩組大語言模型的輸入和輸出,在輸入中,首先向模型輸入了一個計算網球個數的問答,然後向模型提問了一個類似的問題,讓模型計算蘋果的個數。

下方左側是直接的問答,模型給出了錯誤的回答。下方右側是使用思維鏈的問答,研究人員對向模型輸入的關於網球個數的問答做了補充,向模型展示了得到網球個數的推理過程,再讓模型去回答蘋果的個數。

這一次,模型正確地通過推理計算出了蘋果的個數。這樣引導模型生成問題的一系列中間推理步驟的方法稱爲思維鏈。通過思維鏈,可以讓大語言模型在解決問題時將推理步驟詳細、直觀地展示出來,不僅提升了大語言模型在解決推理問題時的準確性,也讓大語言模型的回答有了可解釋性,不再是完全的黑盒。

在GPT-3發佈之後,人們進一步發現了這種提示(Prompt)的重要性。對於能力較強的大語言模型,在提問時甚至不需要給出類似前面計算網球個數的示例,只需要告訴模型“讓我們一步一步思考”(Let's think step by step),就可以提升模型處理複雜推理問題的能力。

以上的嘗試都是在向模型提問時加入引導。如果思維鏈如此有用,是否可以在模型構建與訓練時就將思維鏈固化在模型內部呢?這就是OpenAI o1做出的嘗試。

OpenAI o1的強化學習與新的Scaling Law(尺度定律)

GPT模型在回答問題時,本質上是在進行“文字接龍”,它依據訓練時大量的統計概率數據,估計出在模型的輸入下續寫怎樣的回答是最合適的。

爲了讓大語言模型學習如何使用思維鏈,而不是僅依據概率進行續寫,OpenAI o1使用了名爲強化學習的機器學習方法。

強化學習是指模型以“試錯”的方法進行學習,在訓練的過程中並不告訴模型標準結果是什麼,而是告訴模型它結果的好壞程度。當模型的結果是對的時,模型會在以後的輸出中傾向於採取這種結果;當模型的結果是錯的時,它在以後的輸出中傾向於避免這種結果。在經過多輪的試錯以後,模型會依據自身的經驗學習到一套判斷標準。

強化學習這種不給出標準答案的學習方式適用於複雜環境下的決策問題,例如機器人控制、金融交易、棋類遊戲等領域。在這些領域中,我們往往無法給出一個標準意義上的正確答案,只能得知採取一個行動後的結果。例如,機器人是否摔倒、金融交易是否獲利,遊戲是否勝利。

強化學習的一個著名的案例是2016年Deepmind開發的圍棋AI AlphaGo。在圍棋領域中,可能的局面總數甚至超過了可觀測宇宙中的原子總數,即使是頂尖圍棋高手也不能判斷出任意情況下最好的下法是什麼。因爲圍棋過於複雜,無法通過窮舉獲得最佳的下法。在 AlphaGo出現以前,人們一度認爲人工智能在圍棋上不可能戰勝人類。

AlphaGo使用強化學習進行訓練,它自己和自己下棋,並從每一局棋的勝負中學習到經驗。並不需要人類告訴它哪一步是對的,也不需要學習任何過往人類的棋譜,它在短短數天的訓練後就達到了人類棋手望塵莫及的水平。

在AlphaGo決策的過程中,它首先對局面進行大致判斷,判斷在哪裡下棋更有可能使自己獲勝。這種感覺或者說直覺,通常被人類稱之爲棋感。在大致判斷出在哪裡下棋更可能有利後,AlphaGo對這些不同下法的後續可能性進行進一步計算,並從中選擇最佳的下法。

因此,AlphaGo的實力主要有兩個影響因素,包括對局面進行判斷的能力和對可能下法進行計算的計算量。其中,模型的強化學習過程可以提升模型對局面進行判斷的能力。

AlphaGo的自我對弈

(圖片來源:參考文獻1)

在OpenAI o1的訓練中,通過強化學習,OpenAI o1學會磨鍊其思維鏈並完善其使用的策略,它學會將困難的問題分解爲更簡單的步驟,在分析過程中認識並糾正錯誤。這個過程極大地提高了模型的推理能力。

在學會了使用思維鏈之後,OpenAI o1的輸入不再需要人爲引導它使用思維鏈。相反,OpenAI建議在使用OpenAI o1時保持提示的簡單和直接,並避免使用思維鏈提示。

研究人員在對OpenAI o1的測試中發現,增加強化學習訓練的時間和在推理時增加更多的思考時間都可以讓模型的性能得到改善,這和前面提到的AlphaGo的實力的影響因素相一致。

OpenAI o1的Scaling Law

(圖片來源:OpenAI)

OpenAI 的研究人員在2020年發現了大語言模型的Scaling Law(尺度定律),大語言模型的性能會隨着模型大小、訓練集大小、訓練時的計算量的增加而增加。

OpenAI o1展現了新的Scaling Law,在提升模型性能方面,它還可以通過增加推理時間使得模型獲得更強的性能,這爲未來大語言模型進一步發展提供了新的可能。

OpenAI o1系列目前包含三個模型,o1,o1-preview,o1-mini。它們的模型大小不同,o1最大並且擁有最強的推理能力,o1-mini最小但在使用時消耗較小的成本。它們在數學競賽上的表現如下圖所示,o1-mini在數學競賽上的表現甚至強於o1-preview,但它在其他需要非STEM(科學、技術、工程、數學)知識的任務上會表現較差。同時,隨着推理時間的增加,三個模型的表現都會有所提升。

OpenAI o1不同版本的模型在數學競賽上的表現

(圖片來源:OpenAI)

OpenAI o1會帶來更多安全問題嗎?

OpenAI o1模型的突破,無疑更進一步提升了大語言模型的能力。OpenAI曾提出構建通用人工智能(AGI)的五個階段,第一階段是實現可以和人交流的人工智能,第二階段是實現具有推理能力的人工智能。ChatGPT達到了第一階段的目標,而OpenAI o1的出現使得我們離第二階段更近了一步。

在OpenAI o1展現出強大推理能力的同時,正如研究人員對Q*的擔心,人們不禁想問OpenAI o1是否會帶來更多的安全性問題。

OpenAI的報道中指出,思維鏈爲提升模型的安全性提供了新的機會。在訓練過程中,可以把人類的價值觀集成進模型的思維鏈之中,讓模型拒絕執行有害的行爲。同時,思維鏈可以讓我們以清晰的方式觀察模型的思維,從而增強模型的安全性。

未來,也許超乎想象

目前,OpenAI o1的preview版本和mini版本已經開放給用戶使用,隨後也將添加瀏覽、文件和圖像上傳等實用的功能。它在真實的場景中的效果如何有待大家進一步地體驗和測試。總而言之,OpenAI o1在推理能力上的重要進步,或許意味着我們離通用人工智能更近了一步。未來人工智能將會走向何處,能否爲造福人類社會帶來更大的貢獻,讓我們繼續保持期待。