“大模型性價比之王”刷屏 DeepSeek打破算力需求“怪圈”?

本報記者 吳清 北京報道

近日,一家來自中國的公司Deepseek在全球AI界刷屏,其最新推出的大模型DeepSeek-V3,迅速在AI行業內引發廣泛關注和熱議,主要原因就是預訓練成本之低,其訓練同樣性能的大模型成本僅是行業主流的十分之一左右。

與此同時,相比其他主流大模型,DeepSeek-V3的性能卻足以比肩乃至更優。DeepSeek官方微信公衆號稱,其在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

公開信息顯示,Deepseek的中文名是“深度求索”,爲量化巨頭幻方量化的子公司。作爲一家隱形的AI巨頭,幻方目前擁有1萬枚英偉達A100芯片,2023年4月幻方宣佈成立新組織,集中資源和力量,探索AGI(通用人工智能)的本質,在一年多時間裡進展迅速。在硅谷,DeepSeek如今被稱作“來自東方的神秘力量”。

表現震驚AI圈

引發熱議背後的一個焦點是,預訓練成本之低——這個參數量高達671B的大模型,在預訓練階段僅使用2048塊GPU訓練了2個月,且只花費557.6萬美元。其訓練費用相比GPT-4等大模型要少得多,據外媒估計,Meta的大模型Llama-3.1的訓練投資超過了5億美元。

OpenAI創始成員Karpathy對此感嘆:“DeepSeek-V3讓在有限算力預算上進行模型預訓練變得容易。DeepSeek-V3看起來比Llama-3-405B更強,訓練消耗的算力卻僅爲後者的1/11。”

記者注意到,2024年5月,Deepseek發佈的一款名爲DeepSeek V2的開源模型,因其令人震驚的性價比——推理成本被降到每百萬token僅1塊錢,在AI界一躍成名。隨後,字節跳動、阿里巴巴、騰訊、百度等紛紛跟進,打響中國大模型價格戰。僅僅過去半年多,Deepseek再度進化。

在接受暗涌的採訪中,幻方量化和Deepseek創始人樑文鋒表示:“我們降價一方面是因爲我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API(應用程序編程接口),還是AI,都應該是普惠的、人人可以用得起的東西。”

與此同時,在這麼低的預訓練成本下,DeepSeek-V3的表現卻很突出。

“DeepSeek-V3超越了迄今爲止所有開源模型。”這是國外獨立評測機構Artificial Analysis測試了DeepSeek-V3後得出的結論。

廣發證券發佈的測試結果也顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當,但在邏輯推理和代碼生成領域具有自身特點。

例如,在密文解碼任務中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務中,DeepSeek-V3給出的代碼註釋、算法原理解釋以及開發流程的指引是最爲全面的。在文本生成和數學計算能力方面,DeepSeek-V3並未展現出明顯優於其他大模型之處。

至於爲何用這麼低的成本達到這樣好的效果,業內人士多認爲,DeepSeek-V3通過數據與算法層面的優化,大幅提升算力利用效率,實現了協同效應。

DeepSeek方面則表示,這得益於採用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構,實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質量token上進行了預訓練時,通過監督微調和強化學習階段充分挖掘了其潛力。

“這證明,即使在硬件資源有限的情況下,依託數據與算法層面的優化創新,仍然可以高效利用算力,實現較好的模型效果。”一位科技行業分析師對記者表示。

在DeepSeek-V3刷屏之際,有一個bug也引發熱議。

有用戶在對話框中詢問“你是什麼模型”時,它給出了一個令人詫異的回答:“我是一個名爲ChatGPT的AI語言模型,由OpenAl開發。”國內外不少用戶都反映了這一現象。

對此,OpenAI聯合創始人、首席執行官Sam Altman發帖文表示:“複製容易,創新很難。”外媒指出,Altman這篇帖文意在暗諷其競爭對手對OpenAI數據的挖掘。

不過,DeepSeek-V3也並非第一個錯誤識別自己的模型,谷歌的Gemini等有時也會聲稱是競爭模型。

造成這種情況的原因可能在於,AI公司在互聯網上獲取大量訓練數據,但是,如今的互聯網本就充斥着海量用AI生產出來的數據。“互聯網數據現在充斥着AI輸出。”非營利組織AI Now Institute的首席AI科學家Khlaaf表示,基於此,如果DeepSeek部分使用了OpenAI模型進行提煉數據,也不足爲奇。

Lepton AI創始人賈揚清則表示,2019年,他和Deepseek團隊進行了一次交流。從某種程度上來說,他們取得的偉大成就源於多年的專業知識,但這點卻被許多人忽視了。

前英偉達機器學習專家Bojan Tunguz則表示,所有針對高端半導體的出口禁令實際上可能以可以想象到的“最壞”方式產生了反效果。它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。“這似乎也證實了我自己的假設,即我們距離擁有人工智能機器學習部分的最佳算法還有很長的路要走。”

AI大模型應用走向普惠

DeepSeek-v3的成功引發了關於算力、大模型訓練方式的大討論,一些業內人士甚至開始擔憂行業對算力的需求或大幅下降。

但也有觀點認爲,DeepSeek表現固然優秀,但其統計口徑只計算了預訓練,數據的配比需要做大量的預實驗,合成數據的生成和清洗也需要消耗算力。此外,在訓練上做降本增效不代表算力需求會下降,只代表科技巨頭可以用性價比更高的方式去做模型極限能力的探索。

“其實這個成功案例,讓大家看到了行業的潛力,反而會進一步加大投入,國內外對算力的需求還會增加。”上述科技行業分析師表示,DeepSeek的成功將給國內其他企業帶來啓發,如何更高效地利用算力資源,有望推動更多的中小型企業入局。

科技媒體Maginative的創始人兼主編Chris McKay對此評論稱,對於人工智能行業來說,DeepSeek-V3代表了一種潛在的範式轉變,即大型語言模型的開發方式。這一成就表明,通過巧妙的工程和高效的訓練方法,可能無須以前認爲必需的龐大計算資源,就能實現人工智能的前沿能力。“隨着開源模型與閉源模型之間的差距不斷縮小,公司可能需要在一個競爭日益激烈的市場中重新評估他們的策略和價值主張。”

民生證券指出,大模型應用場景不斷拓展,這使得對推理算力的需求不斷攀升,主要集中在硬件設備算力需求、數據中心規模擴張需求、通信網絡需求三方面。

以目前火熱的豆包大模型爲例,其將帶來多少推理端的算力需求增量?分析師根據目前豆包的月活、日活以及日均token調用量爲基礎,做出保守、中性、樂觀3種假設,預計豆包大模型或將分別帶來759億元、1139億元、1898億元的AI服務器資本開支需求。

海外科技巨頭也正在大手筆加大資本開支。據摩根士丹利預估,海外四大科技巨頭在2025年的資本開支可能高達3000億美元,其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。

隨着端側AI放量,豆包、ChatGPT等AI應用快速發展,多家券商研報指出,算力需求會加速從預訓練向推理側傾斜,推理有望接力訓練,成爲下一階段算力需求的主要驅動力。

12月30日,中信證券研報指出,近日,DeepSeek-V3的正式發版引起AI業內廣泛高度關注,其在保證了模型能力的前提下,訓練效率和推理速度大幅提升。DeepSeek新一代模型的發佈意味着AI大模型的應用將逐步走向普惠,助力AI應用廣泛落地;同時訓練效率大幅提升,亦將助力推理算力需求高增。

公開數據顯示,截至2023年,中國算力總規模位列全球第二,累計建成國家級超算中心14個,全國在用超大型和大型數據中心達633個、智算中心達60個。

“過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”樑文鋒表示。

(編輯:張靖超 審覈:李正豪 校對:顏京寧)