李沐最新演講:因“恐懼”而創業,我的八個大模型判斷

南方財經全媒體記者江月 上海報道

正當楊植麟、王小川、張鵬等“清華系”忙碌於搭建中國版GPT時,畢業於上海交大ACM班的李沐辭去了亞馬遜的AI研究工作,也扎進大語言模型(LLM)創業中。

創業後,李沐從社交媒體上消失了整整一年。今年8月,他回到知乎和B站寫下了《創業一年,人間三年》,記錄他創業第一年的工作。據他說,第一年收入和支出幸運地實現了打平。他又說,接下來更多的公司會在利用LLM降本增效和升級產品上“捲起來”。

正值大語言模型熱潮降溫,很多人覺得“拿着錘子找釘子”不是一個好跡象——應用沒有爆發,再造大模型又有何意義?李沐在這個時候現身,似乎帶着一劑強心劑。

李沐的新公司叫Boson AI,他擔任CTO(首席技術官),其博士期間的導師Alex Smola擔任CEO。Boson是一個物理學概念,指“玻色子”。在量子物理學中,基本粒子被分類爲玻色子(Boson)和費米子(Fermion)。也就是說,玻色子和費米子組成了世界。

在未來世界裡,人和AI,是否也將是玻色子和費米子的關係?

不過也有人在看了他的自述後,失望地說,一個能給黃仁勳寫郵件插隊買H100、“偶遇”張一鳴點撥創業思路、在辦公室得到蔡浩宇拜訪、在斯坦福與宿華散步的人,其經驗很難被他人借鑑。

8月23日,李沐回到上海交通大學計算機科學與工程系,面對校友發表了一次演講。在這次演講中,他談到對大模型發展趨勢的判斷,也再次剖析了自己的創業心路歷程,這些內容也許仍有借鑑意義。

自從2004年進入上海交大計算機科學與工程系成爲第三屆ACM班學子以來,李沐一直頭頂着“天才”這頂光環。

他的學業履歷相當順利:在交大7年,獲得學士、碩士學位,此後短暫在ACM班學長戴文淵介紹下在百度工作,隨後投奔卡內基梅隆大學Alex Smola教授,用五年時間獲得博士學位。

他的事業旅程令他名利雙收。他在百度、Google Brain、亞馬遜先後工作,還與陳天奇等人創建了被廣泛使用的深度學習框架MXNet。

爲什麼選擇在2023年創業?他也深知他放棄的是一段更容易的人生道路,而選擇創業就是選擇經歷苦難。李沐講述了一個關於克服深層次恐懼、用延遲滿足說服自己接受苦難、在時間沉澱中去滿足深層次慾望的邏輯。

根據李沐的演講,以下總結了他的八個大模型判斷和他的創業心路。爲了方便閱讀,南方財經全媒體記者對演講原文進行了整理。

判斷一:數據傳輸速度成爲算力的第一瓶頸

我首先來向不熟悉這個領域的人來解釋一下大模型,大模型的本質就是深度學習,可以把深度學習比喻成“煉丹”。煉丹就是把一堆材料填進一個爐子,依據一個丹方煉出我想要的丹藥來。深度學習是把一堆數據喂進一個設備,依據一個算法得出我想要的模型。

設備,或者說算力,得到了產業界投入的大量精力。芯片設計廠商依據摩爾定律,每年把晶體管縮小一半,又增加帶寬,把一根光纖傳輸的數據量翻倍。

但在我看來,數據傳輸迴歸到了一些肉眼可以看到的問題上。說白了,我們所做的是把這些芯片儘量壓縮在一個最小的空間裡。

很多人可能沒有看過GPU,GPU其實都放在很高的機架上,層層堆疊。但這樣做有個壞處,就是散熱不好,空調是不足以給他們降溫的,所以現在用上了水冷設備,用高比熱容的水來快速散熱。

大家可能覺得,光纖用光速傳輸數據,已經夠快的了吧?但在我們看來,一個房間之隔的距離就能帶來光纖傳輸上幾個納秒的延遲,這非常不能忍。所以我們要把光纖縮短,能用一米長絕不用兩米。

判斷二:內存成爲算力上限的制約因素

光有算力其實是不夠的,在現代計算系統中,算力越高,所需要的存儲空間也越大,所以後者會制約前者的上限。

對於大語言模型而言,它們需要將龐大的數據集壓縮並嵌入到模型中,這就要求硬件上具備足夠大的內存來存儲這些數據和中間計算結果。然而,內存的物理空間是有限的,如果內存需求過大,可能會在有限的芯片面積上犧牲其他重要組件。

在芯片設計中,內存佔用的面積是一個關鍵考慮因素。隨着內存容量的增加,可能會減少芯片上可用的計算單元數量,進而影響整體性能。此外,內存的增加也會帶來成本上升和散熱問題。因此,芯片設計需要在內存容量、計算能力和成本效益之間做出平衡。

我預計,如果半導體制造工藝沒有實質性的突破,例如在晶體管尺寸縮小和三維集成方面的進步,那麼單個芯片的存儲容量可能會受到限制。具體來說,如果工藝限制導致內存容量難以大幅提升,那麼模型的大小和複雜度也會在一定程度上受限,這可能會限制在單個芯片上實現超大型模型的能力。這就需要通過系統架構設計,如多芯片模塊或分佈式計算系統,來擴展計算和存儲能力,以滿足大模型的需求。

判斷三:電力成本越來越凸顯

當算力需求達到一定規模時,供電成本確實成爲了一個必須精打細算的關鍵因素。

我甚至要考慮自行建立發電廠以降低長期成本,因爲1000塊芯片的耗電量可達一兆瓦,這種規模的能耗可能超過一個校園的總電量需求 。

判斷四:未來,訓練大模型的價值會逐年減半

近年來,算力芯片設計商英偉達獲得了壟斷地位,導致算力芯片價格成了訓練大模型的主要成本之一。短期來看,算力每一次翻倍,價格都會有1.4倍的提升。目前,做推理的芯片可能還有多個品牌選擇,但做訓練的芯片門檻還比較高,市場選擇並不多。

可是在過去很長的一段時間裡,在充分競爭的市場裡,算力芯片維持了性能翻倍、價格不變的態勢。長期看來,我認爲市場還是會逐步變得有充分競爭。

我的結論是,在未來,訓練大模型的價值會逐年減半。這給我帶來的思索是,不要去追逐模型的大小,要更多思考模型能帶來什麼價值,把這作爲你的戰略考量。

判斷五:10T到50T是大模型可用的參數規模上限

雖然人類歷史產生的數據遠遠不止50T token,但超過這個規模的數據質量並不一定能給大模型帶來更好的提升。我認爲大模型的可用參數規模會在10萬億到50萬億token之間,也許你能獲得更多數據,但通過清洗後會迴歸到這個數值範圍。

就目前的尺寸而言,大模型預訓練參數量應該在100B到500B token之間,超過500B不是說訓練不動,而是做部署會很難。在Google歷史上,它沒有真的上線過超過500B的模型。在未來一段時間,受限於數據,我認爲100B到500B會是大模型的主流尺寸。

判斷六:人機交互模式會發生改變

在ChatGPT出現之前,我們的人機交互模式是點按鈕。不過,點按鈕只能滿足你80%的需求。

其實點按鈕是一個將需求標準化的程序,將一個需求做成了一個按鈕(窗口)在那裡,但未來,人機交互的目標是實現你更定製化的需求。

如果想實現更精確的需求,長文本、語音會發揮作用。原始的語音信號其實包含很多文本無法覆蓋的信息,比如說情緒、方言、性格。語音方面的延遲已經控制在300毫秒以內,可以做到交流不被打斷的程度,視頻方面我覺得發展還沒有那麼快。

判斷七:垂直模型是個僞命題

很多人都提出要建立垂直模型來解決特定領域的問題,但經過我們長時間的研究,發現這是一個僞命題。

我們的實踐發現,如果一個模型要在知識面評測上贏過通用模型,首先要在通用智能的評測上和通用模型幾乎打平。

判斷八:預訓練不再是技術問題,而是工程問題

兩年前,預訓練是技術問題,兩年後的今天,它已經是工程問題,而後訓練纔是技術問題。對於後訓練,高質量的數據和改進的算法能夠極大地提升模型效果。高質量的數據一定是結構化的,並且與應用場景高度相關,以保證數據的多樣性和實用性。

做大語言模型的研究,你可以不去做預訓練,你就做後面的一部分,因爲後面部分其實對大家有利的。前面變成了一個工程問題,需要很多卡,很多人來完成,後面纔是算法創新。

我認爲數據決定了模型的上限,而算法決定了模型的下限。如果你想要讓模型在某個地方做得好,首先要把這一塊的數據準備好,大家應該把80%的時間放在數據上。

以下有關我的人生選擇和創業:

我自己是有“打卡”一般的人生,此前的人生履歷一直都還不錯。

不過,不管讀博士還是打工,都是一個相對簡單的關係。公司從最上層把世界的複雜關係抽象成簡單任務,一層一層落實下來,越到下面你越是螺絲釘。螺絲釘的工作就是去對應一個螺母釘上去就行了,你不需要去管那個機器有多複雜、外面世界有多複雜。

如果你在這個簡化的世界待久了,你會忘了你的人生動機。

其實人生動機是由你深層次的恐懼激發出來的。如果你仔細想,你會知道內心有一些特別不願意分享出來的事情,很多時候我們都選擇逃避。我們能滿足的是自己淺層的慾望,但這種深層次的恐懼,很少有人能直面。

我的深層次恐懼是什麼?很小的時候,我就曾經恐懼人生意義消逝。現在我要直面這種恐懼,我選擇把這種恐懼轉換成一個向上的動機。

我想選擇直面複雜的社會,沒有人幫我做抽象,我要去自己把這個社會理解清楚,然後快速學習複雜的環境,自己把一些複雜的事情做抽象。

創業真是最好的經歷苦難的辦法,我擁有了“嬰兒般的睡眠”,每三小時醒一次。

我問了很多人,你們創業的時候是怎麼熬過來的,後來總結的核心是延遲滿足。工作的話,我今天的工作明天就能得到肯定;讀phD的話,需要三年,我才能得到學術成果。創業,我需要更耐心的等待。

這真是一個最好的時代,新的技術帶來了新的機會,語言模型對社會的影響將會很大。這也是一個最壞的時代,我知道我需要付出的東西比以往任何時候都要更多。