揭秘DeepSeek:一個更極致的中國技術理想主義故事 |36氪獨家

文 | 於麗麗編輯 | 劉旌

中國的7家大模型創業公司中,DeepSeek(深度求索)最不聲不響,但它又總能以出其不意的方式被人記住。

一年前,這種出其不意源自它背後的量化私募巨頭幻方,是大廠外唯一一家儲備萬張A100芯片的公司,一年後,則來自它纔是引發中國大模型價格戰的源頭。

在被AI連續轟炸的5月,DeepSeek一躍成名。起因是他們發佈的一款名爲DeepSeek V2的開源模型,提供了一種史無前例的性價比:推理成本被降到每百萬token僅 1塊錢,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

DeepSeek被迅速冠以“AI界拼多多”之稱的同時,字節、騰訊、百度、阿里等大廠也按耐不住,紛紛降價。中國大模型價格戰由此一觸即發。

瀰漫的硝煙其實掩蓋了一個事實:與很多大廠燒錢補貼不同,DeepSeek是有利潤的。

這背後,是DeepSeek對模型架構進行了全方位創新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機制)架構,把顯存佔用降到了過去最常用的MHA架構的5%-13%,同時,它獨創的DeepSeekMoESparse結構,也把計算量降到極致,所有這些最終促成了成本的下降。

在硅谷,DeepSeek被稱作“來自東方的神秘力量”。SemiAnalysis首席分析師認爲,DeepSeek V2論文“可能是今年最好的一篇”。OpenAI前員工Andrew Carr認爲論文“充滿驚人智慧”,並將其訓練設置應用於自己的模型。而OpenAI前政策主管、Anthropic聯合創始人Jack Clark認爲,DeepSeek“僱傭了一批高深莫測的奇才”,還認爲中國製造的大模型,“將和無人機、電動汽車一樣,成爲不容忽視的力量。”

在基本由硅谷牽動故事進展的AI浪潮裡,這是罕有的情形。多位行業人士告訴我們,這種強烈的反響源自架構層面的創新,是國產大模型公司乃至全球開源基座大模型都很罕見的嘗試。一位AI研究者表示,Attention架構提出多年來,幾乎未被成功改過,更遑論大規模驗證。“這甚至是一個做決策時就會被掐斷的念頭,因爲大部分人都缺乏信心。”

而另一方面,國產大模型之前很少涉足架構層面的創新,也是因爲很少有人主動去擊破那樣一種成見:美國更擅長從0-1的技術創新,而中國更擅長從1-10的應用創新。何況這種行爲非常不划算——新一代模型,過幾個月自然有人做出來,中國公司只要跟隨、做好應用即可。對模型結構進行創新,意味着沒有路徑可依,要經歷很多失敗,時間、經濟成本都耗費巨大。

DeepSeek顯然是逆行者。在一片認爲大模型技術必然趨同,follow是更聰明捷徑的喧譁聲中,DeepSeek看重“彎路”中積累的價值,並認爲中國的大模型創業者除應用創新外,也可以加入到全球技術創新的洪流中。

DeepSeek的很多抉擇都與衆不同。截至目前,7家中國大模型創業公司中,它是唯一一家放棄“既要又要”路線,至今專注在研究和技術,未做toC應用的公司,也是唯一一家未全面考慮商業化,堅定選擇開源路線甚至都沒融過資的公司。這些使得它經常被遺忘在牌桌之外,但在另一端,它又經常在社區被用戶“自來水”式傳播。

DeepSeek究竟是如何煉成的?我們爲此訪談了甚少露面的DeepSeek創始人樑文鋒。

這位從幻方時代,就在幕後潛心研究技術的80後創始人,在DeepSeek時代,依舊延續着他的低調作風,和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。

和很多量化基金創始人都有過海外對衝基金履歷,多出身物理、數學等專業不同的是,樑文鋒一直是本土背景,早年就讀的也是浙江大學電子工程系人工智能方向。

多位行業人士和DeepSeek研究員告訴我們,樑文鋒是當下中國AI界非常罕見的“兼具強大的infra工程能力和模型研究能力,又能調動資源”、“既可以從高處做精準判斷,又可以在細節上強過一線研究員”的人,他擁有“令人恐怖的學習能力”,同時又“完全不像一個老闆,而更像一個極客”。

這是一次尤爲難得的訪談。訪談裡,這位技術理想主義者,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把“是非觀”置於“利害觀”之前,並提醒我們看到時代慣性,把“原創式創新”提上日程的人。

一年前,DeepSeek剛下場時,我們初次訪談了樑文鋒 :《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 。如果說當時那句「務必要瘋狂地懷抱雄心,且還要瘋狂地真誠」還是一句美麗的口號,一年過去,它已經在成爲一種行動。

以下爲對話部分:

價格戰第一槍是怎麼打響的?

「暗涌」:DeepSeek V2模型發佈後,迅速引發一場血雨腥風的大模型價格戰,有人說你們是行業的一條鮎魚。

樑文鋒:我們不是有意成爲一條鮎魚,只是不小心成了一條鮎魚。

「暗涌」:這個結果讓你們意外嗎?

樑文鋒:非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後覈算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。

「暗涌」:5天后智譜AI就跟進了,之後是字節、阿里、百度、騰訊等大廠。

樑文鋒:智譜AI降的是一個入門級產品,和我們同級別的模型仍然收費很貴。字節是真正第一個跟進的。旗艦模型降到和我們一樣的價格,然後觸發了其它大廠紛紛降價。因爲大廠的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事,最後就變成了互聯網時代的燒錢補貼的邏輯。

「暗涌」:外部看來,降價很像在搶用戶,互聯網時代的價格戰通常如此。

樑文鋒:搶用戶並不是我們的主要目的。我們降價一方面是因爲我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。

「暗涌」:在這之前,大部分中國公司都會直接copy這一代的 Llama結構去做應用,爲什麼你們會從模型結構切入?

樑文鋒:如果目標是做應用,那沿用 Llama結構,短平快上產品也是合理選擇。但我們目的地是AGI,這意味着我們需要研究新的模型結構,在有限資源下,實現更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。除了模型結構,我們還做了大量其他的研究,包括怎麼構造數據,如何讓模型更像人類等,這都體現在我們發佈的模型裡。另外,Llama的結構,在訓練效率和推理成本上,和國外先進水平估計也已有兩代差距。

「暗涌」:這種代差主要來自哪裡?

樑文鋒:首先訓練效率有差距。我們估計,國內最好的水平和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。另外數據效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練數據和算力,才能達到同樣的效果。合起來就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距。

「暗涌」:大部分中國公司都選擇既要模型又要應用,爲什麼DeepSeek目前選擇只做研究探索?

樑文鋒:因爲我們覺得現在最重要的是參與到全球創新的浪潮裡去。過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。

「暗涌」:互聯網和移動互聯網時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。

樑文鋒:我們認爲隨着經濟發展,中國也要逐步成爲貢獻者,而不是一直搭便車。過去三十多年IT浪潮裡,我們基本沒有參與到真正的技術創新裡。我們已經習慣摩爾定律從天而降,躺在家裡18個月就會出來更好的硬件和軟件。Scaling Law也在被如此對待。

但其實,這是西方主導的技術社區一代代孜孜不倦創造出來的,只因爲之前我們沒有參與這個過程,以至於忽視了它的存在。

真正的差距不是一年或兩年,而是原創和模仿之差

「暗涌」:爲什麼DeepSeek V2會讓硅谷的很多人驚訝?

樑文鋒:在美國每天發生的大量創新裡,這是非常普通的一個。他們之所以驚訝,是因爲這是一箇中國公司,在以創新貢獻者的身份,加入到他們遊戲裡去。畢竟大部分中國公司習慣follow,而不是創新。

「暗涌」:但這種選擇放在中國語境裡,也過於奢侈。大模型是一個重投入遊戲,不是所有公司都有資本只去研究創新,而不是先考慮商業化。

樑文鋒:創新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關。但現在,你看無論中國的經濟體量,還是字節、騰訊這些大廠的利潤,放在全球都不低。我們創新缺的肯定不是資本,而是缺乏信心以及不知道怎麼組織高密度的人才實現有效的創新。

「暗涌」:爲什麼中國公司——包括不缺錢的大廠,這麼容易把快速商業化當第一要義?

樑文鋒:過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。

「暗涌」:但你們究竟是一個商業組織,而非一個公益科研機構,選擇創新,又通過開源分享出去,那要在哪裡形成護城河?像5月這次MLA架構的創新,也會很快被其他家copy吧?

樑文鋒:在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,積累很多know-how,形成可以創新的組織和文化,就是我們的護城河。

開源,發論文,其實並沒有失去什麼。對於技術人員來說,被follow是很有成就感的事。其實,開源更像一個文化行爲,而非商業行爲。給予其實是一種額外的榮譽。一個公司這麼做也會有文化的吸引力。

「暗涌」:你怎麼看類似朱嘯虎的這種市場信仰派觀點?

樑文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國最賺錢的公司,都是厚積薄發的高科技公司。

「暗涌」:但做大模型,單純的技術領先也很難形成絕對優勢,你們賭的那個更大的東西是什麼?

樑文鋒:我們看到的是中國AI不可能永遠處在跟隨的位置。我們經常說中國AI和美國有一兩年差距,但真實的gap是原創和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。

英偉達的領先,不只是一個公司的努力,而是整個西方技術社區和產業共同努力的結果。他們能看到下一代的技術趨勢,手裡有路線圖。中國AI的發展,同樣需要這樣的生態。很多國產芯片發展不起來,也是因爲缺乏配套的技術社區,只有第二手消息,所以中國必然需要有人站到技術的前沿。

更多的投入並不一定產生更多的創新

「暗涌」:現在的DeepSeek有一種OpenAI早期的理想主義氣質,也是開源的。後邊你們會選擇閉源嗎?OpenAI和Mistral都有過從開源到閉源的過程。

樑文鋒:我們不會閉源。我們認爲先有一個強大的技術生態更重要。

「暗涌」:你們有融資計劃嗎?看有媒體報道,幻方對DeepSeek有獨立拆分上市的計劃,硅谷的AI創業公司,最終也都難免要和大廠綁定。

樑文鋒:短期內沒有融資計劃,我們面臨的問題從來不是錢,而是高端芯片被禁運。

「暗涌」:很多人認爲,做AGI和做量化是完全不同的兩件事,量化可以悶聲去做,但AGI可能更需要高舉高打,需要結盟,這樣可以讓你的投入變大。

樑文鋒:更多的投入並不一定產生更多的創新。否則大廠可以把所有的創新包攬了。

「暗涌」:你們現在不做應用,是因爲你們沒有運營的基因嗎?

樑文鋒:我們認爲當前階段是技術創新的爆發期,而不是應用的爆發期。長遠來說,我們希望形成一種生態,就是業界直接使用我們的技術和產出,我們只負責基礎模型和前沿的創新,然後其它公司在DeepSeek 的基礎上構建toB、toC的業務。如果能形成完整的產業上下游,我們就沒必要自己做應用。當然,如果需要,我們做應用也沒障礙,但研究和技術創新永遠是我們第一優先級。

「暗涌」:但選擇API的話,爲什麼選擇DeepSeek,而不是大廠?

樑文鋒:未來的世界很可能是專業化分工的,基礎大模型需要持續創新,大廠有它的能力邊界,並不一定適合。

「暗涌」:但技術真的可以拉開差距嗎?你也說過並不存在絕對的技術秘密。

樑文鋒:技術沒有秘密,但重置需要時間和成本。英偉達的顯卡,理論上沒有任何技術秘密,很容易複製,但重新組織團隊以及追趕下一代技術都需要時間,所以實際的護城河還是很寬。

「暗涌」:你們降價後,字節率先跟進,說明他們還是感受到某種威脅。你怎麼看創業公司與大廠競爭的新解法?

樑文鋒:說實話我們不太care這件事,只是順便做了這件事。提供雲服務不是我們的主要目標。我們的目標還是去實現AGI。

目前沒有看到什麼新解法,但大廠也沒有明顯佔優。大廠有現成的用戶,但它的現金流業務也是它的包袱,也會讓它成爲隨時被顛覆的對象。

「暗涌」:你怎麼看DeepSeek之外的6家大模型創業公司的終局?

樑文鋒:可能活下來2到3家。現在都還處在燒錢階段,所以那些自我定位清晰、更能精細化運營的,更有機會活下來。其它公司可能會脫胎換骨。有價值的東西不會煙消雲散,但會換一種方式。

「暗涌」:幻方時代,面對競爭的姿態就被評價爲“我行我素”,很少在意橫向比較。關於競爭,你思考的原點是什麼?

樑文鋒:我經常思考的是,一個東西能不能讓社會的運行效率變高,以及你能否在它的產業分工鏈條上找到擅長的位置。只要終局是讓社會效率更高,就是成立的。中間很多都是階段性的,過度關注必然眼花繚亂。

一羣做“高深莫測”事的年輕人

「暗涌」:OpenAI前政策主管、Anthropic聯合創始人Jack Clark認爲DeepSeek僱傭了“一批高深莫測的奇才”,做出DeepSeek v2的是怎樣一羣人?

樑文鋒:並沒有什麼高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。

「暗涌」:很多大模型公司都執着地去海外挖人,很多人覺得這個領域前50名的頂尖人才可能都不在中國的公司,你們的人都來自哪裡?

樑文鋒:V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。

「暗涌」:這次MLA創新是如何發生的?聽說idea最早來自一個年輕研究員的個人興趣?

樑文鋒:在總結出Attention架構的一些主流變遷規律後,他突發奇想去設計一個替代方案。不過從想法到落地,中間是一個漫長的過程。我們爲此組了一個team,花了幾個月時間才跑通。

「暗涌」:這種發散性靈感的誕生和你們完全創新型組織的架構很有關係。幻方時代,你們就很少自上而下地指派目標或任務。但AGI這種充滿不確定性的前沿探索,是否多了管理動作?

樑文鋒:DeepSeek也全是自下而上。而且我們一般不前置分工,而是自然分工。每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他。探索過程中,他遇到問題,自己就會拉人討論。不過當一個idea顯示出潛力,我們也會自上而下地去調配資源。

「暗涌」:聽說DeepSeek對於卡和人的調集非常靈活。

樑文鋒:我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以調用訓練集羣的卡無需審批。同時因爲不存在層級和跨部門,也可以靈活調用所有人,只要對方也有興趣。

「暗涌」:一種鬆散的管理方式也取決於你們篩選到了一批強熱愛驅動的人。聽說你們很擅長從細節招人, 可以讓一些非傳統評價指標裡優秀的人被選出來。

樑文鋒:我們選人的標準一直都是熱愛和好奇心,所以很多人會有一些奇特的經歷,很有意思。很多人對做研究的渴望,遠超對錢的在意。

「暗涌」: transformer誕生在谷歌的AI Lab,ChatGPT誕生在OpenAI,你覺得大公司的AILab 和一個創業公司對於創新產生的價值有什麼不同?

樑文鋒:不管是Google實驗室,還是OpenAI,甚至中國大廠的AI Lab,都很有價值的。最後是OpenAI做出來,也有歷史的偶然性。

「暗涌」:創新很大程度也是一種偶然嗎?我看你們辦公區中間那排會議室左右兩側都設置了可以隨意推開的門。你們同事說,這就是給偶然留出空隙。transfomer誕生中就發生過那種偶然經過的人聽到後加入,最終把它變成一個通用框架的故事。

樑文鋒:我覺得創新首先是一個信念問題。爲什麼硅谷那麼有創新精神?首先是敢。Chatgpt出來時,整個國內對做前沿創新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應用吧。但創新首先需要自信。這種信心通常在年輕人身上更明顯。

「暗涌」:但你們不參與融資,很少對外發聲,社會聲量上肯定不如那些融資活躍的公司,怎麼確保DeepSeek就是做大模型的人的首選?

樑文鋒:因爲我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。其實,頂尖人才在中國是被低估的。因爲整個社會層面的硬核創新太少了,使得他們沒有機會被識別出來。我們在做最難的事,對他們就是有吸引力的。

「暗涌」:前一段OpenAI的發佈並沒有等來GPT5,很多人覺得這是技術曲線明顯在放緩,也很多人開始質疑Scaling Law,你們怎麼看?

樑文鋒:我們偏樂觀,整個行業看起來都符合預期。OpenAI也不是神,不可能一直衝在前面。

「暗涌」:你覺得AGI還要多久實現,發佈DeepSeek V2前,你們發佈過代碼生成和數學的模型,也從dense模型切換到了MOE,所以你們的AGI路線圖有哪些座標?

樑文鋒:可能是2年、5年或者10年,總之會在我們有生之年實現。至於路線圖,即使在我們公司內部,也沒有統一意見。但我們確實押注了三個方向。一是數學和代碼,二是多模態,三是自然語言本身。數學和代碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。另一方面,可能多模態、參與到人類的真實世界裡學習,對AGI也是必要的。我們對一切可能性都保持開放。

「暗涌」:你覺得大模型終局是什麼樣態?

樑文鋒:會有專門公司提供基礎模型和基礎服務,會有很長鏈條的專業分工。更多人在之上去滿足整個社會多樣化的需求。

所有的套路都是上一代的產物

「暗涌」:過去這一年,中國的大模型創業還是有很多變化的,比如去年開頭還很活躍的王慧文中場退出了,後來加入的公司也開始呈現出差異化。

樑文鋒:王慧文自己承擔了所有的損失,讓其他人全身而退。他做了一個對自己最不利,但對大家都好的選擇,所以他做人是很厚道的,這點我很佩服。

「暗涌」:現在你的精力最多放在哪裡?

樑文鋒:主要的精力在研究下一代的大模型。還有很多未解決的問題。

「暗涌」:其他幾家大模型創業公司都是堅持既要又要,畢竟技術不會帶來永久領先,抓住時間窗口把技術優勢落到產品也很重要,DeepSeek敢於專注在模型研究上是因爲模型能力還不夠嗎?

樑文鋒:所有的套路都是上一代的產物,未來不一定成立。拿互聯網的商業邏輯去討論未來AI的盈利模式,就像馬化騰創業時,你去討論通用電氣和可口可樂一樣。很可能是一種刻舟求劍。

「暗涌」:過去幻方就有很強的技術和創新基因,成長也比較順利,這是你偏樂觀的原因嗎?

樑文鋒:幻方某種程度上增強了我們對技術驅動型創新的信心,但也不都是坦途。我們經歷了一個漫長的積累過程。外部看到的是幻方2015年後的部分,但其實我們做了16年。

「暗涌」:回到關於原創式創新的話題。現在經濟開始進入下行,資本也進入冷週期,所以它對原創式創新是否會帶來更多抑制?

樑文鋒:我倒覺得未必。中國產業結構的調整,會更依賴硬核技術的創新。當很多人發現過去賺快錢很可能來自時代運氣,就會更願意俯身去做真正的創新。

「暗涌」:所以你對這件事也是樂觀的?

樑文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學老師,九十年代,廣東賺錢機會很多,當時有不少家長到我家裡來,基本就是家長覺得讀書沒用。但現在回去看,觀念都變了。因爲錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。

以後硬核創新會越來越多。現在可能還不容易被理解,是因爲整個社會羣體需要被事實教育。當這個社會讓硬核創新的人功成名就,羣體性想法就會改變。我們只是還需要一堆事實和一個過程。