☰

o1研發團隊首次集體訪談：教AI數r用了一年半

笑死，原來o1也像人類一樣喜歡趕ddl（手動狗頭）。

這是在o1團隊的“大型見面會”上，OpenAI創始成員Wojciech Zaremba揭開的o1“黑歷史”。

包括Zaremba在內的18名團隊成員，在首席研究官Bob McGrew的帶領之下圍坐一團。

o1核心貢獻者Hyung Won Chung、Noam Brown等關鍵人物，也都在此列。

隨着成員們的踊躍發言，o1的發展歷程也逐漸被揭開——受AlphaGo和早期GPT模型的啓發，想到了將兩張背後的範式結合。

後來，團隊訓練出了第一個可以生成連貫思維鏈的模型，標誌着研究方向開始逐漸明朗和聚焦……

在充滿鬆弛感的氣氛當中，衆人還分享了有關o1研發的許多趣事：

同時在研究過程中他們還發現，o1不僅比人類更善於發現新的CoT推理步驟，並且還涌現出了自我批評能力。

有網友稱讚說，這的確是一個出色的團隊，非常喜歡聽他們的發言，並且模型的推理能力也確實比以前強。

量子位整理了這次訪談的實錄，下面就一起來看~

Bob McGrew：我是OpenAI研究團隊的負責人，我們剛剛發佈了o1和o1-mini模型。

對此我們感到非常激動，今天我們的整個團隊聚集在此，來介紹這兩個模型。

★什麼是o1？

Bob McGrew：所以，（第一個問題），到底什麼是o1？

Hyung Won Chung：我們開啓了新的模型系列，並且起了一個新的名字叫o1。

這是爲了強調，與GPT-4o等之前的模型相比，o1有很大的不同，稍後會有人詳細解釋。

o1是一個推理模式，所以它在回答問題之前思考的會更多。

我們發佈了兩個模型——（滿血）o1的o1-preview，以及更小、更快的o1-mini，它和（滿血）o1採用的是相同的訓練框架。

我們希望大家喜歡我們的新命名方式。

★推理又是什麼？

Bob McGrew：那麼推理又是什麼意思？

Giambattista Parascandolo：對於簡單問題來說，我們希望提問之後立刻就能得到答案。

比如你問意大利的首都在哪，你不用思考很多也知道答案是羅馬。

但如果你想知道一個複雜問題的答案，或者寫出一份好的商業計劃，或者寫一部小說，你可能就要思考一段時間了，並且你思考的越多，最後得到結果也就越好。

而推理就是把思考時間化爲更好的成果的能力。

★你們在o1上工作多長時間了？

Bob McGrew：你們在o1上工作多長時間了？

Jakub Pachocki：在OpenAI早期，我們深受AlphaGo的成績的啓發，看到了深度強化學習的潛力，因此我們對其進行了深入研究，並看到了數據和機器人技術的大規模擴展。

我們也開始思考如何才能在通用領域進行強化學習，從而實現非常強大的人工智能。

然後我們看到了GPT範式中擴展和監督學習帶來的驚人成果，從那時起，我們就一直在思考如何將這兩種不同的範式合二爲一。

Mark Chen：項目開始的確切時間很難確定，但已經與Yaku和Shimon進行了早期探索，與Lukash、Ilya進行了早期探索。

一個重要的時刻是Jerry的加入，他推動了這個大型項目的進展。

★研究過程中的“Aha moment”

Bob McGrew：我認爲在研究過程中最精彩的就是哪些“Aha moment”，你們的工作當中有哪些高光時刻呢？

Jerry Tworek：我們訓練了 GPT-2、GPT-3 和 GPT-4，每一次都成爲了媒體上的熱點。

但第一次有這種感覺是當模型出來的時刻，所有人都稱讚很棒。

對於我而言，這樣的時刻是當我們投入了更多計算資源，並第一次生成了連貫的思維鏈時。

當時我們心想，這和以前的模型看起來真的很不一樣。

Trapit Bansal：當我們考慮訓練一個推理模型時，我立即想到的一件事是，用人類的思維過程進行訓練。

但我發現，使用RL訓練模型來生成己的思維鏈，結果可以做得比人類寫的思維鏈更好。

在我看來這就是一個“Aha moment”，它告訴我們可以通過這種訓練方式，讓擴展模型的推理能力得到擴展。

Hunter Lightman：我們花了很長的時間，一直嘗試讓模型更好地解決數學問題。

爲此我們付出了很多努力，我們想出了很多不同的方法，但有一件事讓我一直很沮喪，

每次我讀到這些模型的輸出時，發現模型似乎永遠不會質疑自己哪裡出了問題，什麼時候犯了錯誤。

但當我們訓練早期的o1模型並與之對話時，發現它在數學測試中得分更高了。

通過觀察它的推理方式，我們發現它開始質疑自己，並進行了非常有趣的反思。

那一刻我感覺哇，我們發現了一些不同的東西。

★感覺模型像人還是像機器？

Bob McGrew：你們在看模型的思考過程時，覺得他們是更像真人還是更像機器人？

Liam Fedus：這更像是一種“精神體驗”。

你可以看到模型也會犯很多人類經常犯的錯誤，又能看到它對一些常識提出質疑。

很奇怪，模型會帶有人類的行爲。

Wojciech Zaremba：在模型被設定了ddl的情況下，往往會在快due的時候迅速得出結論。

好像大模型也知道自己必須立刻給出答案。

Karl Cobbe：我年輕的時候花了很多時間參加數學競賽，而我進入人工智能領域的原因，就是試圖實現這個過程的自動化。

所以對我來說，這是一個非常重要的轉折點，因爲我看到這個模型實際上能夠遵循我解決這些問題時使用的步驟

雖然這不是完全相同的思路，但非常非常可靠。

Wojciech Zaremba：可以相信，這些模型正在成爲真正推動工程和科學發展的因素。

如果它們似乎能解決即使專家也難以解決的問題，那麼將能夠推動科學進步。

★研發過程中的困難

Bob McGrew：我們談了很多令人興奮的時刻，那麼在工作過程中又遇到了什麼障礙？

Jerry Tworek：訓練大型模型從根本上來說就是一件非常非常困難的事情。

有成千上萬的事情可能出錯，而且在每個領域都有事情確實出錯了。

所以幾乎這裡的每個人都像你們知道的一樣，在訓練這些事情上付出了很多心血和汗水，並想出瞭如何讓模型繼續學習和進步的方法。

實際上，成功的道路非常狹窄，而失敗的方式卻有很多。

Wojciech Zaremba：就像發射火箭一樣，如果你偏離了一個角度，你就無法到達目的地，而這就是我們的工作。

Ilge Akkaya：這個模型非常好，通常比人類好幾倍，能達到博士的水平。

但是這有時是一個挑戰，因爲我們必須經常去驗證模型沒有偏離軌道。

但我們已經飽和了所有行業級的評估，我們不知道下一步該研究什麼。

Mark Chen：這也是一種成就感，就像每次遇到難題一樣。

這就像這個團隊要克服的另一個障礙，我真的很高興我們克服了所有這些小障礙。

★如何測試模型表現

Bob McGrew：你們測試模型的方法有哪些，有沒有什麼喜歡的問題，並發現模型在這些問題上變得越來越好？

Shengjia Zhao：Strawberry裡有幾個r？

Wojciech Zaremba：不管是什麼原因，ChatGPT無法可靠地解決這些問題。

我們花了一年半的時間，現在我們可以計算出strawberry中的“r”的數量。

Hunter Lightman：我有一個習慣，我想其他人也有。

每當上推特時，都會看到一些帖子說大模型無法解決這類問題。

我就把它複製粘貼進去，然後發現我們的模型可以做到。

★內部o1使用方法

Bob McGrew：爲了讓人們瞭解他們可以使用這個模型做什麼，我很想聽聽你們使用o1的一些方法。

Hyung Won Chung：我使用o1的方式主要是用來寫代碼。

我的很多工作都是關於代碼的，我越來越關注問題定義，並使用TDD（測試驅動開發）。

因此，我不再編寫實現功能的代碼，而是專注於編寫單元測試。

因爲o1可以實現東西，所以我可以專注於重要的、需要解決的高級問題，這真的是一種轉移我注意力的重要方式。

另一個領域是debug，現在當我收到一些錯誤消息時，我只需傳遞給o1，有時它會立即解決。

即使沒有，它至少會給出一些更好的問題，提供一些更好地思考這個問題的方法。

所以對我來說，這是一個非常重要的工作變化，我希望這也能幫助其他人。

★o1-mini的誕生過程

Bob McGrew：o1-mini的故事是怎樣的？它是如何誕生的？

Hongyu Ren：我們想把o1系列帶給更多人，它有更低的成本，所以做了o1 mini。它是o1框架的最小演示，是“推理專家”。它不一定能知道你喜歡的名人的生日，但是它能有效地推理，並且很智能。

實際上它真的很聰明，比我們之前最好的模型都要聰明很多，幾乎與o1相當，但是成本和時延比它低很多。

不過也確實有侷限性，可能不知道很多外部世界知識。這與技術本身無關，我們試圖讓它達到和此前最好模型最小版本差不多的水平，並且仍舊在努力進一步改進它。

用戶嘗試了o1 mini會很興奮，因爲它推理和思考的速度真的很快。

★是什麼激勵你做這些研究？

Łukasz Kaiser：我只是覺得在這個世界上，有一些可以做推理、有智能的東西，比想象中小很多。它們可以以不同方式做到這一點，這就非常迷人了。

Giambattista Parascandolo：我覺得這是向模型範式轉變的第一步。以前花很長時間才能解決的問題，現在做到了分鐘級，這只是漫長道路的第一步。我們希望能在幾個月或幾年後，邁出第二步。

Wojciech Zaremba：我覺得這很有意義，我們可以對世界產生一些實質性的積極影響。

而且這很有趣，我喜歡對着電腦“說話”，喜歡在集羣上開始一項工作，也非常喜歡合作。

Jerry Tworek：我認爲科技可以改善人類生活，我喜歡我們的模型能爲人工作，幫助我們解決日常問題，賦予它推理能力讓它做事。

Liam Fedus：我認爲這一範式解決了一些模型無法解決的問題，所以不僅僅是回答變好一點，而是通過規劃、通過錯誤糾正，它解鎖了全新能力，在世界上創造新知識的能力，比如科學發現，我認爲這是最令人興奮的部分。

短時間內，它的自身進化會越來越快，這真的很棒。

Mark Chen：我們團隊中一些成員有數學等方面的背景，這驅動我們自己想去創造一個最好的系統。

Hyung Won Chung：我認爲推理比人們想象中的還要強大。當人類想要完成某項任務時，最基本的方法就是推理，你會遇到困難，你必須要找到解決方法。

我覺得AI研究員的工作好像是要找到一種方法來投入更多的計算。硬件方面的研究者在這方面做的很好，很長一段時間硬件成本都在指數級下降。

需要的計算量越來越多，就好像肩膀上的重量越來越重。這個新模式找到了一種方法，來幫我們卸下一些重量。

★在這項研究中，你們還觀察到什麼嗎？

Jason Wei：我們發現一個有趣的現象是，每個模型都有自己的“怪癖”。

訓練的每個模型在每個任務上的表現都不完全相同。所以模型可能有些任務表現得更好，有些表現得更差。每個模型都有它自己的個性和優點。

原視頻地址：https://www.youtube.com/watch?v=tEzs3VHyBDM

o1研發團隊首次集體訪談：教AI數r用了一年半

相關資訊