複製DeepSeek「白菜價」大模型 「50美元+16張英偉達GPU」完成
▲「s1-32B」的AI推理模型研究成果,再次引起業內人士關注。(圖/路透)
記者魏有德/綜合報導
李飛飛等史丹佛大學和華盛頓大學的研究員近日傳出,不到50美元的費用和使用16張英偉達H100GPU,耗時26分鐘就完成訓練,成功「打造」出了一個名爲「s1-32B」的AI推理模型。由於「s1-32B」有着低成本、高效能的特點,成爲繼DeepSeek之後又一「白菜價」的成果,引起AI業內及業外人士熱議。
▲AI新創公司DeepSeek(深度求索)推出新AI模型DeepSeek R1。(圖/路透)
《每日經濟新聞》報導,根據李飛飛等人的研究論文《s1:Simple test- time scaling》顯示,該模型在數學和編碼能力測試中的表現,與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數學問題上的表現更是比o1-preview高出27%。
對於外界關注的「成本問題」,復旦大學計算機學院副教授、博士生鄭驍慶認爲,「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗,這意味着前期是需要大量燒錢的。」
鄭驍慶表示,模型s1-32B的打造並非是從零開始,而是基於現成的、預訓練的模型(阿里通義千問Qwen2.5-32B-Instruct)進行監督微調,「微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。」
此外,50美元是否包含其他數據、設備、消融實驗等費用,也要打上一個問號。鄭驍慶提到,正如DeepSeek-V3不到600萬美元的訓練成本,實際上也只包了訓練時的GPU算力費用。
該研究結果顯示,s1-32B是樣本效率最高的開放數據推理模型,表現明顯優於其基座模型(Qwen2.5-32B-Instruct)以及OpenAI的推理模型o1- preview,然而,s1-32B實際上只能在特定的測試集上超過o1-preview,且並沒有超過「滿血版」o1和DeepSeek-R1。
李飛飛團隊論文核心其實不在於模型價格上,而是研究如何以最簡單的方式實現「測試時拓展」(test- time scaling)。也就是說,研究團隊可控制模型「思考」多長時間或進行多少步操作。
如果模型過早結束推理,系統會鼓勵模型延長思考時間,確保其充分考慮問題。這代表着模型在推理時會進行多次推理迭代,並逐步優化推理結果,最終生成高質量的答案。