李沐:創業一年,人間三年

機器之心經授權發佈

作者:李沐

在 Amazon 呆到第五年的時候就想着創業了,但被疫情耽擱了。到第 7 年半的時候,覺得太癢了,就提了離職。現在想來,如果有什麼事這一輩子總要試下的,就蹭早。因爲真開始後會發現有太多新東西要學,總感嘆爲啥沒能早點開始。

名字:BosonAI 的來源

創業前做了一系列用 Gluon 命名的項目。在量子物理裡,Gluon 是把夸克綁在一起的一種玻色子,象徵這個項目一開始是 Amazon 和 Microsoft 的聯合項目。當時項目經理拍拍腦袋名字就出來了,但取名對程序員來說很困難,我們每天都在糾結各種文件名和變量名。最後新公司乾脆就用玻色子(Boson)來命名了。希望大家能 get 到 “Boson 和費米子組成了世界” 這個梗時會會心一笑。但沒料到很多人會看成 Boston。

“我來波士頓了,找個時間碰碰?” “哈?可我在灣區呀”

融資:簽字前一天領投方跑路

22 年年底的時候想到兩個用大語言模型(LLM)做生產力工具的想法。碰巧遇到張一鳴,就向他請教。討論之後他反問:爲什麼不做 LLM 本身呢?我的下意識退縮:我們之前在 Amazon 的團隊做了好幾年這個,得上萬張卡,和 blabla 這麼一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長遠點。

我的優點是聽勸,真就去做 LLM 了。湊齊了數據、預訓練、後訓練、和架構各方向負責人的創始團隊,就去融資了。運氣不錯,很快拿到了種子投資。但錢還不夠買卡,得去拿第二輪。這一輪領頭是一家非常大的機構,做了幾個月文檔、商討條款。但在簽字前一天,領頭說不投了,直接導致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做 LLM 的入場券。

今天反思的話,當時蹭着資本市場熱情還在,其實可以繼續融資,說不定也跟其他友商一樣,現在十億現金在手。當時擔心融資太多,會不好退出,或者被架到天上去了。現在想來,創業就是想逆天改命,想什麼退路呢?

機器:第一批吃螃蟹的人

有了錢後就去買 GPU。問各個供應商,統一回復是 H100 交貨得一年以後了。靈機一動,直接給老黃寫郵件。老黃秒回說他來看下。一個小時後超微的 CEO 就打電話過來了。多付了些錢,插了個隊,20 天后拿到了機器。很榮幸早早的吃到了螃蟹。

螃蟹吃到懷疑人生,遇到了各種匪夷所思的 bug。例如 GPU 供電不足導致不穩定,後來靠超微工程師修改 bios 代碼打上補丁;例如光纖的切開角度不對,導致通訊不穩定;例如 Nvidia 的推薦網絡佈局不是最優,我們重新做一個方案,後來 Nvidia 自己也採用了這個方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,爲啥需要我們的 debug?

同時我們還租了同樣多的 H100,一樣是各種 bug,GPU 每天都出問題,甚至懷疑是不是這個雲上就我們一個吃螃蟹的。後來看到 Llama 3 的技術報告說他們改用 H100 後,訓練一次模型被打斷幾百次,對字裡行間的痛苦,很是共情。

如果對比自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個。一是三年後如果 Nvidia 技術還遙遙領先,那麼它能控制價格使得 GPU 仍然保值。另一個是自建的數據存儲成本低。存儲需要跟 GPU 比較近,不管是大雲還是小 GPU 雲,存儲價格都高。但一次模型訓練可以用幾 TB 空間存 checkpoint,訓練數據存儲是 10PB 起跳。如果用 AWS S3 的話,10PB 一年兩百萬。這錢用來自建的話,可以上 100PB。

商業:感恩客戶,第一年收支平衡

非常幸運的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝 Openai 的財力和 Nvidia 的遙遙領先,這兩項支出都挺大的。我們的收入來源是給大客戶做定製的模型。很早就上 LLM 的公司大都是因爲 CEO 非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動內部團隊配合嘗試新技術。非常感恩客戶給了我們喘氣的時間,不然這個幾個月我又是奔波在各個投資人那裡。

接下來應該會有更多公司才嘗試使用 LLM,不論是自己產品的升級,還是降本增效。原因是一方面技術成本在降低,另一方面行業領先者(例如我們客戶)會陸續放出基於 LLM 的產品出來,把行業捲了起來。

我們也在關注 LLM 在 toC 上的落地。上一波頂流例如 c.ai 和 perplexity 還在找商業模式,但也有小十來家 LLM 原生應用收入還不錯。我們給一家做角色扮演的創業公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進化,更多模態(語音、音樂、圖片、視頻)在融合,相信接下來還會有更有想象力的應用出現。

整體來說行業和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術到產品就是一個很長的過程,花 2、3 年實屬正常。算上用戶的需求的涌現,可能得花更長時間。我們專注當下在迷霧中探路,對未來保持樂觀。

技術:LLM 認知的四個階段

對 LLM 的認知經歷了四個階段。第一階段是 Bert 到 GPT3,感受是新架構,大數據,這個可以搞。我們在 Amazon 的時候也是第一時間進去做了大規模的訓練和在產品上的落地。

第二階段是剛創業的時候 GPT4 了放出來,大受震撼。大半原因來自技術不公開了。根據小道消息估算一次模型訓練一個億,標數據成本幾千萬。很多投資人問我復現 GPT4 成本得多少,我說 3-4 億要把。後來他們中一家真一把投了大幾億出去。

第三階段是創業的第一個半年。我們做不動 GPT4,那就想着從具體的問題出發吧。於是開始找客戶,有遊戲的、教育的、銷售的、金融的、保險的。針對具體的需求去訓練模型。一開始市面上沒有好的開源模型,我們就從頭訓練,後來很多很好的模型出來了,降低了我們成本。然後針對業務場景設計評估方法,標數據,去看模型哪些地方不行,針對性提升。

23 年年底時,驚喜發現我們的 Photon(Boson 的一種)系列模型在客戶應用上的效果都打贏 GPT4 了。定製模型的好處是推理成本是調用 API 的 1/10。雖然今天 API 已經便宜很多,但我們自己技術也同樣在進步,仍然是 1/10 成本。另外,QPS,延時等都更好控制。這個階段的認知是對於具體應用,我們是可以打贏市面最好模型的。

第四階段是創業的第二個半年。雖然客戶拿到了合同裡要的模型,但還不是他們理想中的東西,因爲 GPT4 還遠不夠。年初時發現針對單一應用訓練,模型很難再次飛躍。回過頭想,如果 AGI 是達到普通人類水平,客戶要的是專業人士的水平。遊戲要專業策劃和專業演員、教育要金牌老師、銷售要金牌銷售、金融保險要高級分析師。這都是 AGI 加上行業專業能力。雖然當時我們內心對 AGI 充滿敬畏,但感覺是避不開的。

年初我們設計了 Higgs(上帝粒子,Boson 的一種)系列模型。主打通用能力緊跟最好的模型,但在某個能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。24 年年中的時候迭代到第二代,在測試通用能力的 Arena-Hard 和 AlpacaEval 2.0 上,V2 跟最好的模型打得有來有回,在測試知識的 MMLU-Pro 上也沒差很遠。

Higgs-V2 是基於 Llama3 base,然後做了完整的 post-training。我們無法像 Meta 那樣花大錢標註數據,所以 V2 比 Llama3 Instruct 好,原因應該還是主要來自算法的創新。

然後我們做了個評估角色扮演的評測集,包含按照人設扮演,和按照場景扮演。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型訓練中是沒有碰評測用的數據。因爲這個評測集一開始就是想自用,希望能真實反映模型能力,所以要避免模型 overfit 數據集。但做評測的同學想寫技術報告,所以放出來了。有意思的是,按角色扮演的測試樣本來自 c.ai,但他們家的模型能力是墊底的。

第四階段的認知是,好的垂直模型通用能力也不能弱,例如 reasoning,instruction following 這些能力垂直上也是需要的。長遠來看,通用和垂直模型都得朝着 AGI 去。只是垂直模型可以稍微偏科一點,專業課高分,通用課還行,所以研發成本稍微低一點,研發方式也會不一樣點。

那第五階段認識呢?現在仍在進行中,希望能很快分享。

願景:人類陪伴

說來慚愧,我們矇頭做技術,給客戶做定製,然後再慢慢想我們自己追求什麼願景。我們去看客戶想要什麼、我們自己想要什麼、未來可能需要什麼。我自己的話,多年前我憧憬有個機器人保姆能幫我帶娃、陪他們,因爲幹這個我覺得很難,而且也不太理解娃當前的認知和想法。我希望工作上有個非常厲害的虛擬助手能跟我一起發明新的東西。等我老了也想有很有意思的機器人陪着。我對於未來的預測是,生產工具越來越發達,一個人完成之前一個團隊才能完成的事情,導致人類更加個體獨立,大家都忙着追求自己的事情,從而更加孤獨。

這些綜合在一起,我們把願景定成了 “人類陪伴的智能體”。一個情商很高的,智商在線的智能體。算換成現實中的人的話,應該會是一個專業團隊。例如你想讓它陪你玩,那它是專業策劃 + 演員。陪你運動,那麼鼓勵師 + 專業運動教練。陪你學習,那麼能把你不懂的講懂。模型的好處是,它能做長期的陪伴,真的瞭解你。而且可以 “真心爲你”。

不過目前技術離願景還挺遙遠。當下技術就能陪着聊聊。很多場景下聊得也不是那麼好,內容匱乏,智商情商有時都不在線。都是當下要解決的問題。如果有小夥伴做這一塊的海外應用,歡迎聯繫我們。

團隊:有挑戰的事情得靠團隊

創業之後才真正覺得團隊的重要性。在大廠的時候,覺得自己是個螺絲釘,團隊成員是螺絲,甚至團隊也是個螺絲釘。但創業團隊就是一輛車。車小點,但能跑,能載重,轉彎靈活,各個角落都能去。公司成立不久的時候,米哈遊老蔡來看了眼,看見所有人在一間房子裡,他感慨說小團隊真好。

不方便的地方當然也是有的,時刻要看有沒有油,不好走的路得小心別把車震散架了。每個成員都很重要,沒有冗餘,一個人不給力,就可能是一個輪胎沒氣。人也寶貴,走一個人就可能少一個輪胎。

以前我選項目會選自己能主導開發的。但這也意味着問題不是很有挑戰性。創業選了個很大的問題去做,只能全靠團隊了。別看本文裡用了大量的 “我”,其實工作都是團隊做的。沒了團隊,我可能得轉行去賣課了。

個人追求:名還是利?

到目前爲止我都靠跟着內心的聲音做決定,工作後再去讀博、去做視頻、去創業。創業需要強烈動機的支撐,才能克服層出不窮的困難。這需要對自己的動機做更深入的分析。

動機要麼來自慾望,要麼來自恐懼。十年前我可能更熱衷名利,但到了現在的年紀,覺得金錢的邊際效用已經不高,名聲帶來的情緒價值也已經很小。我深層的動機來自對生命可能沒有意義的恐懼。先不說宇宙的浩瀚,就是在人類的歷史長河,一個人也只是一粒沙。意外的到來,迅速的消失。地球上生活過一千億人,絕大部分人不會在歷史上留下痕跡。我家家譜上那上千人名,我幾乎都不認識。

那麼一個人的存在的意義是什麼呢?小時候曾因爲想不清這個問題而抑鬱。所以潛意識裡,我想去創造價值,獲得存在的意義。我選擇 “上進”,去提升自己的創造價值的能力;選擇錄長視頻和寫教材,創造教育價值;選擇去寫讀博、工作、創業的總結,描述裡面的糾結和困難,創造事例的價值;選擇去創業,團結很多人的力量去創造更大價值。

後記

去年跟宿華在斯坦福散步,他拍着我肩膀說:“跟我說句實話,你爲什麼想創業呀?” 當時候不以爲然:“就是想換個事情做做”。然後宿華笑了笑。

現在我懂了,因爲他經歷了創業酸甜苦辣。如果今天再來回答這個問題,我會說:“我就是腦子抽了”。但也慶幸當時沒想到會那麼不容易,所以一頭扎進來了。否則,大家看到的可能是「工作十年反思」。我覺得今天我寫的故事更有意思些。

致敬所有創業人。

(最後廣告下我司的招聘信息(灣區和溫哥華)https://jobs.lever.co/bosonai 有做出海應用的小夥伴也請聯繫我們 api@boson.ai)