21觀察│“東方神秘力量”再爆火 AI競賽崛起中國創新勢力
21世紀經濟報道記者孔海麗 北京報道
DeepSeek再次爆火。
近日,國內AI初創公司DeepSeek發佈了新一代大語言模型DeepSeek-V3,同時宣佈開源。在多項基準測試中,V3的成績超越了主流開源模型,並和世界頂尖的閉源模型不分伯仲。
更重要的是,V3的訓練成本極低,僅爲GPT-4o的二十分之一;售價也低,輸入+輸出價格約爲GPT-4o的十分之一。不過其目前不支持多模態輸入輸出。
DeepSeek是知名量化資管公司幻方旗下的人工智能公司,成立於2023年7月。
被冠以“AI界高效低價典範”的DeepSeek,給當前的人工智能技術與發展路徑提供了一個新的方向,貢獻了AI競賽中的中國力量。
DeepSeek的“暴力美學”
多個實測表明,數學基準(MATH 500)和AIME 2024測試方面,V3超越了當前國際主流大模型Llama 3.1 405B、 Claude 3.5 Sonnet 和 GPT-4o;代碼能力(Codeforces 基準),比國外主流大模型高出約 30 分;軟件工程(SWE-bench Verified)和知識問答方面,略遜於Claude 3.5 Sonnet。
因此,DeepSeek 的技術論文自豪地宣稱,“綜合評估表明,DeepSeek-V3-Base 已經成爲目前可用的最強大的開源基礎模型,特別是在代碼和數學方面。它的聊天版本在其他開源模型上的表現也優於其他開源模型,並在一系列標準和開放式基準測試中實現了與 GPT-4o 和 Claude-3.5-Sonnet 等領先閉源模型的性能相當。”
更重要的是,這一成就,是在極低的訓練成本下取得的。
DeepSeek的技術論文披露:“我們的預訓練階段在不到兩個月的時間內完成,成本爲 2664K GPU 小時。結合 119K GPU 小時的上下文長度擴展和 5K GPU 小時的後訓練,DeepSeek-V3 的完整訓練成本僅爲 2.788M GPU 小時。假設 H800 GPU 的租金爲每 GPU 小時 2 美元,我們的總訓練成本僅爲 557萬美元。”
Anthropic首席執行官達里奧·阿莫迪此前透露,GPT-4o的模型訓練成本約爲1億美元。而僅僅是訓練一個7B的Llama 2,就要花費76萬美元。
也就是說, DeepSeek-V3的訓練成本僅爲同性能模型的十幾分之一。這讓整個AI界都爲之震驚。
據報道,仍處於研發過程中的GPT-5 ,至少已進行過兩輪訓練,每輪訓練耗時數月,僅一輪計算成本就接近 5 億美元。一年半過去,GPT-5仍未問世。這意味着,新一代通用大模型的訓練成本已達到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資,重要開支之一是將數據中心Colossus的規模擴大一倍,GPU數量達到20萬顆。
按照這種訓練路徑,未來三年內,AI大模型的訓練成本將上升至100億美元甚至上不封頂。正是在這種背景之下,一段時間以來AI界產生了對Scaling law的質疑。
GPT-5難產,OpenAI轉向了另一條發展路徑:推理模型。並且很快產生成果:令人驚豔的o1推理模型,以及剛發佈的O3推理模型。而O3的卓越表現,讓部分專家驚呼,在前往AGI的路上已經沒有了障礙。
人工智能初創公司受到巨大的啓發,並緊緊跟隨。前不久剛從硅谷考察回來的零一萬物創始人李開復說,過去大家覺得預訓練做好就夠了,一年以後(O1出現後)發現Post train(後訓練)也同樣重要。他認爲,很多AI公司都在向推理模型方面發展,5個月以後會有不少類似o1 模型的能力出現在各個模型公司,包括零一萬物,都在往o1 方向狂奔。
但DeepSeek-V3的出現,提供了新的可能。更短的時間,更高的效率,更低的成本,達到同等的水平,通用大語言模型的發展路徑上,貢獻了“中國版本”。
新的變化已經發生
事實上,今年5月6日,DeepSeek發佈DeepSeek-V2開源MoE模型,就以其高效性能在全球AI界掀起了一波熱度。而其API接口定價斷崖式降爲每百萬tokens輸入1元、輸出2元(32K上下文),價格僅爲GPT-4-Turbo的近百分之一。
隨後,智譜AI、字節跳動、阿里雲、百度、騰訊雲旗下大模型不得不跟進降價。而且騰訊和百度宣佈幾款大模型產品免費。雖然有人將DeepSeek-V2稱爲“AI界的拼多多”,但這個比喻不太恰當,因爲二者幾乎沒有共性。
DeepSeek -V3 的 API定價提高到輸入2元/M tokens,輸出爲8元/M tokens(45天的價格優惠期後),雖然比V2大幅上漲,但也只相當於 Claude 3.5 Sonnet 費用的 1/53,後者每百萬tokens輸入3美元、輸出15美元。
根據記者近兩天對AI從業者的採訪,DeepSeek-V3的出現,爲業界提供了新的啓發。
其一,大模型研發,存在多種可能的發展路徑。
ChatGPT走的是大參數、大算力、大投入的路子,對算力和資金的要求極高,這種資源消耗是絕大多數創業公司無法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司,也面臨投資回報的商業化難題。
推理模型是另一條路子。O1、O3的成果,證明這條路也是可行的。但同樣,它也是建立於相對高昂的算力和資金成本基礎上,尤其是算力。
DeepSeek -V3是第三條路徑。與當前大模型訓練動輒要求萬卡集成相比,它只用2000張A100 GPU訓練,就實現了與GPT-4o 和 Claude-3.5-Sonnet幾乎等效的成果,不能不令人敬佩。
一位在硅谷從事AI研究的華人工程師告訴21世紀經濟報道記者,不排除還有更多的路徑選擇,比如V3的MLA架構、MoESparse 結構與O3的推理能力相結合,可能產生新的大模型範式。如果實現,那將是令人驚異的。
其二,人工智能競爭,中國不僅僅是跟隨者,而是正在大幅提升創新能力。
其實V2發佈時,硅谷就驚訝地稱之爲“來自東方的神秘力量”。DeepSeek創始人樑文鋒今年7月在接受媒體採訪時說,硅谷習慣於將中國AI公司視爲follow的角色,當一箇中國公司以創新貢獻者的身份,加入到他們遊戲裡去,而且表現優異時,他們就很震驚。
樑文鋒認爲,更多的投入並不一定產生更多的創新,否則大廠可以把所有的創新包攬了。研究和技術創新將永遠是DeepSeek第一優先級。值得注意的是,根據業內專家測算,DeepSeek在V2、V3上並不虧錢。
V3獲得硅谷一批知名AI大佬的點贊。Lepton AI創始人、阿里巴巴原副總裁賈揚清表示,DeepSeek是智慧和實用主義的體現:在有限的計算資源和人力條件下,通過聰明的研究產生最好的結果。這是一句相當中肯的評價。
無獨有偶。宇樹科技近日發佈Unitree B2-W機器狗視頻,托馬斯全旋、側空翻、360°跳躍轉體、2.8米凌空飛躍,甚至能馱着一名成年男子穩步行走。這幾天,技術討論園區裡到處可見對這家前沿中國機器人企業的歡呼聲,有評論稱其技能足以“吊打”當今最先進的機器人公司波士頓動力。上週還在A股市場掀起了一陣“宇樹科技概念”上漲潮。
其三,創新從來不是單維度、單向度的,AI顛覆式創新正在成爲可能。
研發出ChatGPT 的OpenAI確實了不起,它開啓了人工智能的新一輪浪潮。但OpenAI也不是神,也有發展方向的障礙,有融資的難題,有路徑選擇的猶豫。
過去兩三年,AI界一個流行的看法是,如果說硅谷企業擅長從0到1,那我們則擅長從1到10,因爲中國有寬廣的應用市場。但樑文鋒認爲,當前階段仍是AI技術創新的爆發期,而不是應用的爆發期。
從理性的角度,需要承認我們與OpenAI、Anthropic、DeepMind這些世界先進AI公司的差距。比如,即使是代表閉源大模型最前沿水平的V3,多項性能表現與GPT-4o相近,那也是後者7個月前的技術水平;而OpenAI這幾個月已連續推出o1、o3這類新的“變異”物種。更何況,其他大多數的模型產品,放在多語言、多模態的國際視野看,差距要更大。
但這一輪人工智能浪潮之所以更加令人期待,就是因爲,它帶來的革命性想象力甚至要超越互聯網之於傳統經濟的變革力量。正如樑文鋒所說,中國產業結構的調整升級,會更依賴硬核科技的創新。在半導體、大模型等領域,前所未有的機會在等待着中國企業,能夠帶來AI顛覆性創新的,就將成爲下一個偉大的企業。
前述硅谷華人工程師感慨地說,再偉大的企業,都不敢止步不前,坐享其成。
5年前,誰會想到,英特爾會淪落到傳聞要被收購的命運?而今天別看英偉達如日中天、GPU供不應求,但如果量子芯片大規模商用的時間表大大縮短,或者像V3這樣不再依賴於萬卡集成做訓練研發,而它繼續固守原有發展路徑,那麼所謂的“英偉達泡沫破滅”也是完全可能發生的。