與谷歌Gemini核心負責人對話:數據即將耗盡,AI下一階段的突破口在哪裡?
(關注公衆號並設爲標,獲取最新人工智能資訊和產品)
全文12,600 字,閱讀約需23分鐘
在 AI 領域的最新一期深度對話中,著名播客主持人與 Drastic Research 副總裁兼 Gemini 聯合負責人 Oriol Vinyals 展開了一場關於人工智能發展前沿的精彩討論。作爲 Gemini 項目的核心領導者之一,Vinyals 深入分享了當前 AI 模型從專用向通用演進的關鍵洞察。
在人工智能領域,我們正見證着模型能力的重大演進。從最初的單任務專用模型,到如今的 Gemini 這樣的通用多模態系統,AI 正朝着更靈活和通用的方向發展。正如 Vinyals 所闡述的,這種進步涉及複雜的預訓練(模仿學習)和後訓練(強化學習)過程。這兩個階段的突破,爲實現真正的通用人工智能奠定了重要基礎。
讓我們設想一個具體場景:如果我們希望讓一個語言模型或視覺語言模型學會玩《星際爭霸》,我們可以採取一種全新的方式。不同於開發一個專門的遊戲 AI,這個模型可以像人類玩家一樣學習 - 觀看遊戲視頻、閱讀攻略、參與論壇討論,然後將這些知識應用到實戰中。通過持續學習和實踐,它最終可能會主動告訴你:"我已經掌握了這款遊戲,要不要來對戰看看?"
這種自主學習和行動的能力展現了 AI 向通用智能邁進的重要一步。它不再侷限於預設的知識範圍,而是能夠主動獲取、整合和應用新知識。當然,這種深度學習模式並非適用於所有場景 - 比如對於"今晚吃什麼"這樣的簡單問題,我們顯然不需要,也不應該等待模型花費數週時間來研究答案。
採訪文稿
主持人Hannah Fry :歡迎回來,Oriol,很高興再次和你交流!
Oriol Vinyals:你好,謝謝你再次邀請我。
一、“Drastic Research”項目
主持人:在我們開始之前,你能介紹一下“Drastic Research”是什麼嗎?
Oriol Vinyals:當然可以!我經常告訴我的團隊,要“drastic”思考,意思是不要僅僅侷限於所有人都在關注的增量改進。我們需要大膽設想幾年後可能發生的重大變化,然後將這些想法“回溯”到今天並付諸實踐。所以,“drastic”就是這種激進創新的思維方式,也是我經常使用的詞。
主持人:上一次見到你時,你還在研究一個能夠使用鍵盤和鼠標完成任務的智能體,比如在“畫圖”中畫畫或玩《星際爭霸》。現在看來,技術已經發展了不少吧?
Oriol Vinyals:是的,那時候的智能體基於一種非常通用但相對簡單的機器學習原理。我們主要專注於讓模型在一個特定任務上表現出色,當時採用了一種逐步提高任務難度的“課程式”訓練方法。比如,上一次我們談到的是《星際爭霸》,這是一款非常複雜的現代戰略遊戲。而更早之前,DeepMind 則以《Atari》開創了風潮,這種遊戲相對簡單,比如只需左右移動擋板擊球即可。但即便如此,這些算法被設計得非常通用,以便我們能夠逐步攻克更復雜的任務。現在的模型不僅訓練過程更高效,其適用範圍也廣泛得多。當年那些模型雖然複雜,比如下圍棋或玩《星際爭霸》,但它們的能力相對侷限。如今的模型則可以廣泛應用於更多領域,比如聊天機器人等。
主持人:當時你們的核心方法是強化學習吧?現在和那時相比,有什麼不同呢?
Oriol Vinyals:算法層面,其實從 AlphaGo 到 AlphaStar 的核心算法是相似的。這些算法也與如今的大型語言模型或多模態模型的構建方式有一定共性。無論是過去還是現在,我們主要有兩個關鍵階段:第一個階段是預訓練,也叫模仿學習。這一步從隨機初始化的權重開始,通過算法模仿大量人類數據,無論是遊戲數據還是互聯網中可用的知識數據。目標是在這個階段儘可能好地學習並適配這些數據。權重可以理解爲神經元之間的連接強度。神經元是計算單元,彼此通過權重相連。簡單來說,一個神經元接收到其他神經元的信號後,根據這些信號乘以相應權重的總和進行激活。而訓練模型的過程實際上就是調整這些權重。如果用一個類比的話,這是不是可以理解爲神經元像管道一樣,權重就像管道的寬度,水流則是信號。你可以想象有數百萬個神經元和數十億甚至數萬億條“管道”,我們的計算資源大多花在訓練這些網絡上,尤其是語言模型的預訓練階段。
主持人:那麼預訓練階段完成後,你就有了一個龐大的網絡。接下來,像 AlphaGo 或 AlphaZero 的方法是讓模型與自己對戰,對吧?
Oriol Vinyals:是的,這個模型在模仿學習後已經能夠做出看似人類的操作,比如寫出通順的句子,或者在遊戲中合理移動棋子。但下一步,我們會讓模型通過與自己對戰進一步優化,從而超越人類水平。但是目前的模型並沒有學會將這些行動與獎勵關聯起來。這就是強化學習或者後期訓練的作用,也就是訓練的第二階段。例如,你可以通過模仿互聯網上的詩歌來寫詩,這只是模仿平均水平上的詩歌樣式。但問題是,我只想要優秀的詩歌。要做到這一點,你需要進一步調整模型中的“管道”,基於某種獎勵信號,比如給整個詩歌打分,可能是0或者1。如果是一首平庸的詩,得分是0;如果是好詩,得分是1。同樣可以用遊戲的例子來說明,這是我們傳統上使用強化學習的領域。如果贏了比賽,得分是1;輸了,得分是0。然後我們根據這些得分進一步調整模型的權重。在這一階段,我們不再只是模仿人類,而是試圖超越人類的水平,比如創作出完美的詩歌,或者下出完美的棋局。在語言模型中,這個強化學習後期訓練的階段通常時間較短,因爲不像在傳統的棋類遊戲中有清晰的勝負信號。在這些遊戲中,自對弈可以明確區分輸贏,而語言模型缺乏類似明確的獎勵機制。所以,當這個階段完成之後,這些就是模型背後所有的複雜過程。然後,你就會說,“停!保持現狀。”
主持人:團隊會“凍結”整個網絡的快照,這就是最終用戶能夠訪問的內容,對吧?
Oriol Vinyals:是的。當這個驚人的過程完成後,權重的配置就變得非常寶貴。你可能花了數月時間來調整和優化一切,而一旦訓練完成,這些權重就不再改變了。訓練結束後,我們會盡可能讓模型高效運行。例如,如果發現某些神經元並沒有什麼作用,可以將其移除,這樣模型運行速度會更快,成本也更低。作爲用戶,大家會使用同一套訓練好的權重。這就是我們所謂的“Gemini 1.5 Flash”,它代表一組已經凍結的權重,不會再進一步調整或訓練。這兩個步驟從 AlphaGo 到 AlphaStar 再到當前的大型語言模型基本一致。當然,具體細節和領域的發展有所變化,但核心原理幾乎沒有改變。不過在底層架構上,比如說 DQN(Atari 的例子)、AlphaGo 的算法,以及大型語言模型,它們的架構還是不同的。數字大腦的構建需要多個組件,其中一個關鍵部分就是架構。從早期的神經網絡到現在的 transformer,它們能更高效地從數據中學習。DQN 時期我們還沒有 transformer,現在 transformer 幾乎成了主流。不過,從 transformer 到今天的模型,大部分進展其實是小的改進。例如,AlphaFold 也依賴 transformer,但團隊可能花費數年時間在細微調整上,比如移除一部分神經元、增加一層結構、或者讓網絡變得更寬。這些細微的改變有時會極大地影響性能。
二、模型實現自主決策
主持人:目前已經實現了這麼多成就,目標正如我理解的那樣,是實現更多的自主行爲,讓這些模型能夠做出自主決策。這些成就如何幫助實現這一目標?
Oriol Vinyals:是的,我們可以深入探討當前的趨勢。我們稱之爲大型語言模型,但它們實際上是多模態的。之前的某一期節目中,我們詳細討論了多模態的優勢,比如添加一張圖片,然後進行提問或後續交互等,這種能力非常強大。
主持人:所以這個模型會不斷改進它對輸入的推理能力,比如“這張圖片是關於什麼的?”“用戶在問什麼?”“我能寫出一首更好的詩嗎?”或者“我能讓它更長一些嗎?”——像這樣的互動是我們現在都能體驗到的。但這些只是其中的一部分,我們可以把它當成核心處理器(CPU),並在其基礎上添加更多的功能。比如,假設這個模型可以爲你做研究,這會怎樣?
Oriol Vinyals:一個例子是,我們以前就已經在考慮這個問題了。我可以要求一個語言模型或者視覺語言模型學會玩《星際爭霸》。這和直接創建一個專門玩《星際爭霸》的智能體完全不同。另一個方式是,這個模型可以自己上網,觀看關於遊戲的視頻,下載遊戲並與之交互,從中學習規則和策略。它還可以在線搜索資料、瀏覽論壇、閱讀玩家討論,然後回到遊戲中改進自己的弱點。經過幾周的學習,它可能給你發一封郵件說:“我現在已經學會了玩《星際爭霸》,我們可以來對戰一下。這樣的場景離我們並不遙遠。這種能力讓模型可以採取行動,學習任何可用的新知識,這是非常強大的想法。這種能力極大推動了模型的通用性發展,也讓我們覺得 AGI(通用人工智能)的目標似乎更近了。如果我理解正確的話,目前的大型語言模型或者多模態模型是一個核心,而下一步的目標是基於這個核心,讓它“解鎖”更多的能力,自主行動。如果它能訪問所有的知識,並利用時間進行深入研究,提出假設、編寫代碼等等,從而回答非常複雜的問題,那麼可能性將大大擴展。當然,這並不適用於所有場景。比如,如果你問“我喜歡米飯,今晚該做什麼吃?”它沒必要花三週時間深度研究答案,否則你大概不會很高興等這麼久。
主持人:我喜歡這個概念:核心處理器再加上“數字身體”。現在有了“電腦”(electric brain),接下來是賦予它一個“數字身體”。說到“電腦”和核心處理器的概念,讓我問一些具體的問題。我猜我們應該聊聊 Gemini,對嗎?Gemini 本質上就是我們在談論的多模態模型。我知道大型模型的一個主要發展方向是不斷擴展它們的規模,讓它們越來越大。你認爲這種通過擴展規模取得的效果已經達到瓶頸了嗎?
Oriol Vinyals:這是一個非常重要的問題。我們研究過隨着模型規模變大(比如增加神經元的數量),它們在一些任務上的表現如何提高,這些任務有明確的評估指標,比如機器翻譯。這是一個非常容易理解的例子:當我們增加神經元的數量,從數百萬擴展到數十億甚至可能的數萬億時,模型的翻譯效果會持續提升。不過,即使在這些研究中,也會發現一些規律。你可能覺得性能提升看起來是線性的,但其實你需要用對數軸來表示。這意味着,如果過去三年我們看到了某種程度的進步,不要期待未來三年還能取得相同的進步。因爲達到相同的提升實際上是指數級困難的。這也意味着計算資源的投入雖然在以超線性的速度進步,但可能無法完全跟上這些趨勢,你會看到某種程度的邊際遞減效應。換句話說,隨着參數數量的增加,提升性能可能需要 10 倍的投入,而這會讓我們面臨壓力——也許我們不能再單純依賴擴展模型規模,而需要探索其他方式來改進模型。
主持人:我常給學生舉的一個例子是,如果你有一個非常亂的房間,剛開始整理的前10分鐘就能看到明顯的效果,比如收拾髒盤子、放好髒衣服之類的事情。但如果你整理了7個小時,再多花10分鐘可能就幾乎沒有什麼效果了。這不就是我們目前的處境嗎?
Oriol Vinyals:是的,這個類比非常貼切。事實上,這個類比甚至可以延伸到模型性能上。即使模型性能已經非常好,比如你希望它100%準確,永遠不會生成虛假的內容,但我們知道,如果對模型進行深入測試,它仍然可能生成一些不真實的內容。而且要達到最後這一小步的目標也非常困難,這爲大規模部署帶來了一些有趣的挑戰。
三、數據、算力和模型規模
主持人:所以,我明白你提到的邊際收益遞減的問題。那麼,在改進這些模型方面,是不是隻有數據、計算能力和模型規模這幾個槓桿可以利用?
Oriol Vinyals:確實,如果你凍結了架構,比如說在接下來的一年中沒有任何創新,只是依賴更好的硬件進行擴展,這種策略的趨勢看起來可能還不錯。但在 Gemini 項目中,我們有其他的創新,比如從如何組織提供給模型的數據,到架構的細節,再到訓練過程的運行方式以及運行時間的長短。我們還需要決定提供給模型的數據類型、過濾哪些低質量數據、提供更多高質量數據等等。所有這些都屬於超參數的調整。此外,我們還非常仔細地研究算法的改進,因爲訓練模型的過程非常昂貴,所以我們必須確保每一項創新都值得投入。當我們準備好下一代模型時,不僅僅是依靠規模的提升,還會有算法層面的突破。但關於擴展的問題,你提到的規模好像沒有限制。理論上,計算能力的投入也沒有限制,但數據的規模是有限的。人類的語言總量是有上限的。實際上,硬件節點的數量是有限的。因爲這些模型無法在單個芯片上運行,所以需要多個芯片組成的網絡進行通信。這裡存在物理限制,比如光速等。所以當模型規模變得過大時,訓練的效率也會下降,這可能從硬件資源利用的角度看並不值得。
另一個關鍵問題是,預訓練需要模仿所有可用的數據,但這些數據並不是無限的。如果我們假設訓練了所有的數據——也就是所有人類寫過的、讀過的東西。互聯網上的所有內容。實際上,我們已經開始意識到數據量正在接近枯竭。現在,有一些方法,比如生成合成數據。我們可以用不同的方式重寫現有的數據,比如以不同的語言來表達這些知識。目前互聯網上大部分內容是英語,大約佔60%,具體比例我不確定。但通過重寫相同的知識,我們可能可以拓展數據量。這是一個很多人開始投入研究的領域,因爲當數據枯竭時,擴展法則的效果會變得更差。
主持人:所以,比如說,你可以讓 Gemini 自己生成一個版本的互聯網,然後用這個版本來訓練新的 Gemini 模型?但是這樣的話,會不會有一種風險,就是如果模型不斷使用自己生成的輸出作爲訓練數據,可能會形成一些不利的反饋循環?
Oriol Vinyals:這是一個很好的問題,這種方式確實存在潛在問題。從表面上看,讓模型重新生成整個互聯網並不是一個好主意。數據集的內容是有限的,而重新生成的內容如何創造出新信息?這是個未知數。這種方法可能在一定程度上有幫助,因爲目前的機器學習算法並不能完全從互聯網中提取所有信息。我們的算法雖然很優秀,但仍然不完美。
主持人:我想再深入思考一下這個想法,因爲它真的很有趣。因爲很顯然,如果你不加以考慮地進行操作,新的版本可能會繼承原有的偏見,而再基於這個版本的訓練又會變得更加偏見化,最終就會離人類的原始版本越來越遠。但你提到的似乎是,在最初的人類互聯網中其實嵌入了一些概念性的關聯。如果我們能夠提取這些關聯——我幾乎可以想象它就像人類概念的“E=mc²”。如果我們能夠僅僅基於這些原則生成新的數據,這似乎會更現實。
Oriol Vinyals:是的,完全正確。我認爲這也是關鍵問題所在:這些語言模型只是在線複製已有內容而無法創造新的東西?還是它們能夠真正學到一種世界模型(world model),從中提取的原則有可能超越數據本身的侷限?在我更樂觀的觀點裡,我傾向於相信我們可以突破目前的數據限制,推動邊界更進一步。不過,也有一些數據來源我們還沒有真正取得突破,比如視頻數據。視頻數據量非常龐大,但我們還沒有看到一個時刻能完全利用這些視頻數據,儘管其中可能蘊含大量的知識,比如物理規律、世界運行的方式等,即便視頻本身並沒有關聯的文字信息。我們還沒有真正挖掘這一數據源的潛力。
主持人:它是不是無法以這種方式工作?還是你們也不確定?
Oriol Vinyals:確實不確定,但從感覺上來說,它應該是可以的。畢竟我們人類的學習方式也類似。雖然語言學習在早期階段很重要,但我們也通過觀察三維世界等方式來學習。所以,這種方式應該還能提取更多的知識。顯然,我們在連接視頻中的概念方面已經做得相當不錯了。從測試模型的表現中可以看出,它可以完成一些很棒的事情,比如看一個小時的視頻,然後提取出其中三個有趣的時刻。但模型本身是否直接使用了這些信息?可能還沒有完全做到。
四、多模態模型
主持人:我很喜歡這個話題。我們之前和 Jeff 討論多模態模型時也提到,如果讓這些模型看完所有存在的視頻,它能否真正提取出像“重力”這樣作爲概念的含義?但如果我理解正確的話,你現在描述的是:模型目前可以告訴你視頻中有什麼,但它還無法說出“E=mc²”這樣的原理。或者,如果你展示夜空的圖片,它也無法像人類天文學家那樣預測行星的運動,對嗎?
Oriol Vinyals:是的,完全正確。目前的“捷徑”是我們在訓練圖像和/或視頻數據時,幾乎總會有與這些模態相關聯的文字表示。這可能是描述圖像或視頻內容的標題、說明等。這當然很了不起——你可以提供一張帶有概念化小繪畫的作業圖片,它會基於這些邏輯進行很好的推理。但我想說的是,如果我們僅僅提供沒有任何文字解釋的視頻數據,能否訓練出一個模型讓它理解發生了什麼?甚至從某種意義上說,模型可以從中“推導”出一種語言——雖然不一定是我們的語言——並提取出其中的概念。這種情況目前還沒有發生,但很可能會實現。
主持人:模仿階段,也就是我們剛纔討論的內容,但之後還有強化學習階段。我知道像 AlphaGo 和 AlphaZero,以及其他許多模型,都是通過自我對弈變得更強的。這種方法在這裡也適用嗎?
Oriol Vinyals:是的,這是目前一個主要的開放挑戰——不僅是擴展預訓練,還有後期訓練或強化學習的擴展。在遊戲中,強化學習的一個優勢是規則是明確定義的。如果你贏了,你就知道自己贏了。有一個程序會驗證,比如你下國際象棋,如果是將死局面,它會確認:“好的,將死了。恭喜,你贏了比賽。清晰的標準。但在語言模型中就複雜得多了。比如,這首詩比那首詩更好嗎?即便在我們人類之間,這也是一個充滿爭議的話題。所以,廣泛性使得精確評估變得非常困難。再比如,這是一個更好的電影摘要嗎?或者,這是這個視頻中最有趣的部分嗎?這些都很難量化。不過,我們可以嘗試,也確實在嘗試。我們訓練一個模型,然後根據一些人類的偏好,大致讓模型去歸納總結。比如,當我要求一個模型批評它自己的輸出時,它可能在80%的情況下表現得不錯,這並不算差。它能給出一些信號。但問題是,你在一個不完美的評估指標上開始訓練模型。此時,模型會嘗試去“利用”這個獎勵的弱點。舉個例子,如果在國際象棋中有一個漏洞,比如說如果兵在某個特定位置就總是贏,而這是一個正常玩家絕不會採用的走法,那麼算法可能會探索出這個漏洞並利用它。突然之間,你會發現,“哦,如果我把第一個兵移動到這個位置,我就贏了。”顯然,算法掌握了贏棋的方法,但從人類的角度來看,它的棋藝表現可能很糟糕。
主持人:這基本上就是一種“淘氣的 AI”,對吧?
Oriol Vinyals:是的,這就是挑戰所在。模型可能更傾向於發現規則的漏洞,而不是真正學會什麼是“好的詩”。
主持人:那能不能引入另一個玩家,比如說,另一個模型來作爲最終的裁判?
Oriol Vinyals:這是一個不錯的建議,但問題是,你要如何訓練這個裁判模型呢?我們對“好詩”的概念只有有限的認知,可能需要依賴一些專家來比較兩首詩的好壞。但我們能用來訓練裁判的這些數據是非常有限的。最可靠的標準當然是請教真正的專家。如果可以的話,我們會這麼做。但這顯然不具備可擴展性。想象一下,如果模型每三秒有一個參數更新,而我們需要專家去審閱一萬個結果,這樣的效率太低了。而且,我們也沒有足夠的數據來訓練一個足夠好的獎勵模型。所以,儘管有一些想法可以嘗試,但問題的核心在於我們無法獲得真正的“地面真相”(ground truth)。
五、模型推理能力
主持人:那麼,如果這是核心部分,也就是“電子大腦”,現在我們正在構建“數字身體”,你希望這個數字身體具備哪些能力呢?比如推理能力?因爲在這方面也有很多研究,對吧?
Oriol Vinyals:當我們開始思考如何爲這些模型提供有限的訪問權限,讓它們能夠超越已經凍結的權重,去獲取新的知識或者執行比簡單預測上下文中下一個詞更復雜的任務時,一些顯而易見的能力就浮現出來了。一個很自然的想法是讓它們能夠訪問搜索引擎,這正是 Google 的強項。另外一個是讓它們能夠運行自己編寫的代碼。當然,更廣泛一點的能力可能是讓它們能夠與具有互聯網訪問權限的瀏覽器交互。但同時,我們必須非常小心,要給這些環境加上“沙盒”保護機制,以確保即便模型還不夠完善,它們也不會執行任何意外的操作。這涉及整個安全性的維度,當模型的能力超越其訓練數據時,這些問題變得相當有趣。如果僅僅是暢想可能性,賦予模型這些工具後,它們突然間可以執行超越當時訓練語料範圍的更高級任務。比如,它們可以利用最新的新聞來解釋或總結昨天發生的主要事件。這種能力需要通過工具賦予模型。
主持人:那麼推理在這一切中是如何發揮作用的呢?
Oriol Vinyals:推理確實是一個有趣的部分。比如,我剛纔描述的情景可以總結爲:我想知道昨天發生了什麼,然後可能會個性化地向模型描述我的需求,比如:“我是 Oriol,我對這些話題感興趣,我的政治觀點是這樣或者那樣,請給我一個正面的新聞總結。模型可能會搜索並檢索所有相關的新聞,然後根據我的需求生成一個讓我喜歡的結果。如果我不滿意,還可以反饋說“我不喜歡這個”或者“這個笑話不好笑”。通過一些對話迭代,模型會調整輸出。推理的作用則是模型可以決定哪些中間步驟有助於生成更好的答案。比如,假設 Google 搜索檢索到了100個新聞來源,模型可能不會直接嘗試總結所有的內容,而是先爲這100篇文章逐一生成摘要。不過,這些摘要是給模型自己用的,而不是直接展示給用戶的。
接下來,模型可能會決定將這些摘要按主題分組。如果發現某篇文章看起來可疑,可能會進一步上網檢查是否有論壇討論這篇文章的可信度,比如作者背景是否可靠等等。模型可以通過多個步驟進行研究,甚至持續較長一段時間。最終,當模型認爲自己已經有了一個高質量的答案時,纔會生成幾句話的總結給用戶。但在這之前,它可能已經對信息進行了更深入的處理。推理時間的計算能力是一個非常重要的因素。我們希望,給模型更多的時間,它就能更好地總結新聞、更好地寫詩、當然也能更好地做數學。這實際上是另一個擴展模型能力的方向,我們正在嘗試解鎖這個能力,希望它能突破純粹預訓練所面臨的規模限制和規律性約束。
主持人:這是否也包括計劃能力?比如,模型可以查看你的日程表,計算你的發薪日是什麼時候,也許知道一月份的促銷快到了,然後告訴你推遲幾天預訂假期,這樣更划算?
Oriol Vinyals:這可能會變得非常複雜。不過,確實,當你將個性化因素和其他正在進行的事情都考慮在內時,模型需要從更多信息源中收集數據,然後給出最佳答案。這就不僅僅是回答“天空是什麼顏色”這樣簡單的問題了(儘管即便是這個問題也並不那麼簡單)。舉個例子,我們早期的一篇論文中就用過這個例子:語言模型可以回答類似“天空是什麼顏色”的問題,太神奇了,對吧?你不需要顯式編程,它就能給出答案。但實際上,如果你進一步思考,這個答案也非常微妙——比如“在什麼星球上?”“一天中的什麼時間?”“天空有沒有云?”等等。所以,思考和計劃確實是這些模型可以做到的事情。
六、AI具備系統1和2能力
主持人::這讓我想起了2019年我和 Demis 談話時的一個話題。他提到了 Kahneman 和 Tversky 關於人類大腦有兩種思維繫統的觀點:一種是快速、直覺驅動的,另一種是慢速、計算型的,用於做數學或下棋。Demis 當時說第二種思維方式(慢速計算型)是我們傳統上用計算機更容易實現的。而現在我們也開始看到更快的直覺型思維。但你說的好像是將這兩者結合在一起,對嗎?
Oriol Vinyals:是的,沒錯。Demis 可能提到的是“系統2”(System 2),這是一種需要更多反思的思維模式。在遊戲中很明顯,比如有時你會直覺地覺得“這步棋看起來不錯”,然後就下了。但如果你多花點時間思考,可能會找到更好的走法。現在的挑戰在於,由於這些模型的方向非常廣泛——它們幾乎可以做任何事情,真的任何事情。你可以上傳一張圖片,討論新聞等。所以,關於如何實現更深層次的思考,這在很大程度上是領域特定的。這就引出了一個問題:該怎麼做?有一個我喜歡的答案是,這些模型本身已經非常通用了。如果要在這個通用能力的基礎上增加思考能力,就需要一種通用的思維方式。所以,我們可以用模型本身來生成它應該如何思考的方法。模型可能會得出自己的邏輯,比如“我要先爲每篇文章寫一個摘要”,“然後我會做這個和那個”。這一切並不是我們編程顯式告訴它的,而是模型自己生成的。這是一種非常深刻的見解。當然,這是不是唯一的方式?是不是最好的方式?還爲時尚早。
主持人:好,那讓我回想一下五年前(2019年)當時看起來非常重要的一些事情。那時很多研究靈感都來自神經科學。我想,從某種意義上說,我們現在談到的計劃和推理,記憶也是另一個非常重要的話題。這方面有進展嗎?畢竟人們常談論“長上下文”和“短上下文”,從某種意義上說,這也算是一種工作記憶,對吧?
Oriol Vinyals:是的,現在確實有一些技術可以應用到語言模型中,至少有三種方法可以解釋這個問題,而且相對容易理解。第一種方法是通過預訓練步驟來構建一個系統,這一步本質上就是一種記憶化的過程。模型通過權重和架構的組合來“記住”互聯網上的信息。第二種層次是,正如我之前提到的,可以給模型提供一個像 Google 搜索引擎這樣的工具。這可以被類比爲神經科學中所謂的“情景記憶”(episodic memory)。對於人類來說,這種記憶可能是關於很久以前的事情,比如我可能模糊記得我第一天在 Google 的情景:一些片段,比如一個房間、某個人等等。這種記憶往往是不太精確的,但它確實存在。很有趣的是,這些模型可能並沒有像人類一樣的限制。比如,你可以找到一篇許多年前的文章,這篇文章中的所有圖片和內容都可以完美地被重新構建。這種“情景記憶”在我們將強大的搜索引擎整合到模型中時,已經得到了明顯的體現。
第三種記憶模式可以稱爲“工作記憶”,實際上包含了我之前描述的整個思維過程。比如,我們處理每一篇新聞文章,然後想要創建摘要、發現它們之間的關係或批評其中一些內容,這時就需要工作記憶。工作記憶相當於一個臨時的“便箋本”,存儲摘要和發現的問題。當我們提到“短上下文”或“長上下文”時,通常指的就是這一部分,即工作記憶。如果模型只有一千個 token 的上下文,那麼它無法處理太多內容,可能只能檢索文章而無法有效地總結它們。但如果上下文窗口很大,那麼模型可以進行更多的推理和關聯,這將帶來更多可能性。實際上,2024年的一個突破就是實現了數百萬個 token 的上下文,這解鎖了許多新功能。比如,你可以上傳一部電影或一段非常長的視頻,然後進行詳細的分析和總結。上傳過程類似於“情景記憶”,而能夠將所有內容存儲到內存中並進行關聯分析,則是工作記憶的體現。
七、模型無限記能力
主持人:更長的上下文窗口總是更好嗎?因爲從神經科學的角度來看,人類的工作記憶是有限的。有時候我們會覺得“大腦裝滿了,無法處理更多信息”。
Oriol Vinyals:有時候人腦的確是我們的靈感來源,但計算機顯然有它的優勢。我們應該基於它的強項來構建能力。比如,計算機可以記住整個維基百科,而人類不行。但如果模型能夠做到,這就帶來了新的能力。當然,即使是對神經網絡來說,信息過多可能也會讓系統變得混亂。所以,我們可能需要壓縮信息,而這方面人類大腦的記憶檢索方式可以帶來一些靈感。
主持人:這就是爲什麼你在領導 Drastic Research 項目。
Oriol Vinyals:是的,我們希望這些模型能夠實現一些鼓舞人心且具有前瞻性的功能,同時還要研究技術的主要限制,並激勵團隊圍繞關鍵組件尋找解決方案。
主持人:但你們已經做出的一些選擇顯然是成功的,比如 Gemini 的能力和智能代理功能。最近也有許多令人目眩的新功能發佈,對吧?我們能聊聊其中的一些嗎?也可以談談這些新功能如何體現我們之前提到的各種技能。
Oriol Vinyals:是的,我們圍繞我們最先進的 Gemini 模型建立了許多系統。最近我們發佈了 2.0 版本,這是一個代際性的飛躍。即使我們不再單純通過擴展規模來提升模型能力,我們仍然可以提高質量。這些模型現在速度更快,成本更低,同時性能更好。所以基本上,Gemini 變得更好了。,但不僅僅因爲我們擴大了規模,這一點很重要。
主持人:那麼,關於你們爲 Gemini 增加的智能代理功能,可以多說一些嗎?
Oriol Vinyals:當然,我們現在推出了一個可以在 Chrome 中使用的智能助手。你可以讓它幫你完成一些複雜的任務。有些任務我自己其實既喜歡又討厭,比如計劃旅行,尋找酒店或航班之類的。這些任務的某些部分非常重複,我希望它們可以被自動化,但同時我又不想完全脫離這個過程。我們推出的功能希望能夠自動化某些瑣碎的步驟,比如需要多次點擊的操作,讓這些步驟變得更加流暢。這個智能助手可以根據你的請求,通過“思考”和“操作”來完成任務,比如點擊鏈接等。這既是一個研究挑戰,也是一個機會,因爲它涉及一個非常通用的環境和一個非常通用的代理模型。我們早期的原型中,比如讓模型在瀏覽器中玩遊戲,它可以找到一個網站並開始玩。這種連接回到了 DeepMind 的起點。但不同的是,過去這些遊戲是專門設計的,環境是固定的。而現在,整個互聯網都是模型的“遊戲場”,這非常廣泛。所以,模型實際上可以完成類似過去使用鍵盤和鼠標的操作,非常相似的事情,甚至這些操作都非常相似。模型理解屏幕,並根據你的請求決定點擊哪裡。這些操作與以前的通用遊戲中的交互方式非常相似。但不同之處在於,過去的目標是單一的,比如完成一個遊戲。而現在,目標範圍擴展到了整個互聯網。
主持人:我能想象它現在能做什麼。比如,它能查看你的日程表,你可以告訴它“明年我要度假”,然後它可以根據你的日程安排、預算等因素,幫你找到最合適的時間和地點,對嗎?
Oriol Vinyals:是的,這些模型距離能夠完全自動化這些任務並不遙遠。現在的關鍵是如何讓它們更好、更安全。這需要很多步驟。但如果我們快速展望未來,任何人類可以在瀏覽器上完成的任務,原則上這些模型都可以做到。通過改進它們的理解能力和推理能力,模型將變得更快、更高效,在某些情況下甚至比人類更擅長這些任務。這就是我們的願景。這些還處於非常早期的階段,但非常令人興奮。我相信,明年我們會看到很多圍繞這種將語言模型與瀏覽器或計算機更廣泛集成的想法進行的實驗。
主持人:那關於編程呢?
Oriol Vinyals:編程也是一個非常好的例子。我們正在推出一些面向軟件工程的工具。編程通常不僅僅是“給我一個關於代碼問題的完美描述,然後讓我寫代碼並測試”。它更像是一個迭代的過程:你需要編寫代碼、運行代碼,反覆改進。因此,我們也在從智能代理的角度推動這項能力的發展。遊戲同樣很重要。遊戲是開發強大算法的一種手段,同時也很有趣,特別是當這些強大的多模態模型開始理解遊戲時,它們可以幫助用戶在遊戲過程中獲得樂趣,比如提供建議或者講一些與遊戲相關的笑話。因此,我們也在嘗試開發類似“遊戲助手”的功能。
八、無限接近通用智能
主持人:聽起來所有這些功能讓人覺得我們已經非常接近通用智能了。你覺得我們離 AGI(通用人工智能)還有多遠?
Oriol Vinyals:這是個好問題。我最近就在想這個問題。如果10年前,甚至5年前,有人拿出我們現在的模型給我,並說“這是一個來自秘密實驗室的模型,你來試試看看它是否接近通用智能”,我可能會說:“哦,是的,這個模型來自一個 AGI 已經發生或者即將發生的未來。但當你離目標越近,你就會發現更多問題,比如模型可能會產生幻覺(hallucinate)。這當然是一個非常重要的問題。但如果你放大來看,會覺得它確實已經很接近了。
主持人:那麼 DeepMind 的使命——“解決智能問題”,最終的目標是超越人類的智能,甚至是超級智能。你認爲單純通過擴展規模就能實現嗎?還是需要其他的突破?
Oriol Vinyals:Google DeepMind 的使命確實是通過科學推進智能的邊界。最近一個很好的例子就是 AlphaFold。從領域的角度來看,我們已經看到了一些狹義但超級智能的系統,比如 AlphaFold 專注於蛋白質摺疊問題,這一領域的成就證明了這種方法的價值。我認爲,未來我們可能會在一些特定領域看到更多這樣的超級智能系統,即便是這些通用模型的能力也需要一定的專業化。但這種專業化是值得的,比如解決蛋白質摺疊問題顯然是非常有意義的。所以,這種方法是一個很好的測試工具。同時,我們非常有優勢,因爲我們有完整的科學團隊在研究非常有趣的問題。如果將語言模型與更科學化的環境結合,比如模擬器、定理驗證器等,是否需要一些離散性的突破才能推動其他領域的進展?我認爲可能不需要類似 transformer 的另一種突破。通過更好的執行、規模化一些想法,我們可能會在數學等領域看到一些令人驚歎的進展,比如模型能發現數學家也感興趣的新定理。這些成就並不是意外,而是通過精心設計和逐步擴展實現的。
主持人:確實有趣的是,最早的突破似乎總是在有明確“真相”的領域,比如科學。蛋白質摺疊顯然是有明確答案的。
Oriol Vinyals:是的,我也希望我們能在其他領域以超越人類的方式取得進展。比如,你可以想象一個由這些強大模型驅動的科學顧問,它不一定是發現了某些新東西,而是挑戰了你的假設,讓你跳出固有的思維框架,從而讓你的創造力達到一個你本無法到達的地方。這在某種意義上也可以被稱爲超人類的表現。所以,這些方向絕對是有潛力的,但也更難定義如何獎勵這種行爲。
主持人:這真是太迷人了,今天的討論中確實有很多“drastic”的內容。
Oriol Vinyals:是的。
主持人:非常感謝你來參加這次對話。
Oriol Vinyals:謝謝,我也很高興參與。
drastic思維 突破增量改進的限制 放大鏡效應 既要保持信心也要保持清醒 多維度突破 不只依賴規模的擴大 【往期回顧】
看到很多讀者在問"如何開始AI轉型",我們建了個實戰派AI團隊(成員來自復旦、浙大、華爲、阿里等),專注幫企業做"輕量級"AI落地:
公司該從哪個環節開始用AI?
️ 具體怎麼落地纔不會踩坑?
投入產出比怎麼才最大?
我們團隊專注企業AI解決方案
業務流程AI優化 提升運營效率 降低人力成本 定製AI應用開發 場景化解決方案 快速交付落地 AI轉型諮詢規劃 專業評估診斷 精準轉型方案
聯繫負責人:Milo-1101(僅限企業客戶)
原視頻鏈接:https://www.youtube.com/watch?v=78mEYaztGaw&t=40s&ab_channel=GoogleDeepMind
素材來源官方媒體/網絡新聞