騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應用全家桶

智東西作者 ZeR0編輯 漠影

智東西11月5日報道,今日,騰訊宣佈開源MoE大語言模型混元Large、騰訊混元3D生成模型Hunyuan3D-1.0正式開源,並全面披露騰訊混元的全系列多尺寸模型、C端應用、B端應用版圖。

騰訊稱混元Large是業界參數規模最大、效果最好的開源MoE大語言模型,採用7T訓練tokens,總參數量389B,激活參數量52B,上下文長度高達256K,技術報告也同步發佈。

混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。

與有相似激活參數量的業界開源模型Llama3.1-405B、Mixtral-8x22B等相比,在多學科綜合評測集、中英文NLP任務、代碼、數學等9大維度,混元Large實現全面領先。

混元Large包含高質量合成數據、專家特定的學習率縮放、KV緩存壓縮、長上下文處理能力、廣泛的基礎測試等主要技術創新,具體可參見技術報告。

騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型,不僅在定量指標上達到開源模型的先進水平,而且輕量版生成高質量3D資產只需10秒,標準版也將文/圖生成3D資產的耗時縮至45秒內。

兩個模型均屬騰訊自研,均已經在騰訊業務場景中落地應用,經過實踐的檢驗,是面向實用場景的應用級大模型。

新開源模型支持企業及開發者精調、部署等不同場景的使用需求,可在HuggingFace、Github等技術社區直接下載,免費可商用。騰訊雲TI平臺和高性能應用服務HAI也開放接入這兩個模型,爲模型的精調、API調用及私有化部署提供一站式服務。

混元Large Hugging Face地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

混元Large GitHub地址:https://github.com/Tencent/Tencent-Hunyuan-Large

混元3D生成模型GitHub地址:https://github.com/Tencent/Hunyuan3D-1

混元3D生成模型Hugging Face地址:https://huggingface.co/tencent/Hunyuan3D-1

一、最大開源MoE大語言模型:六大關鍵技術,將開源企業卷軸數據集

MoE即混合專家模型,是目前國內外主流的大模型結構。據騰訊機器學習技術總監、混元算法負責人康戰輝分享,相較密集模型,MoE模型在相同成本下效果更優,在相同規模下訓練/推理成本更低,而且容量大,可訓練更多數據。當前MoE的挑戰有訓練穩定性差、專家負載不均衡等。

一些應對方案包括:1)Scaling Law探索,設計基於中小模型簇的MoE Scaling Law實驗機制,探索最優的模型參數設置;2)路由機制,探索高效的專家路由策略;3)訓練穩定性,涉及特有的訓練schedule,loss收斂更快更穩定。

混元Large模型有六大關鍵技術:

1、MoE Scaling Law探索:混元團隊投入大量成本,全面探索了專家個數、激活參數量和訓練tokens量的Scaling Law。在MoE Scaling Law的指導下,混元-Large在算力預算內合理選擇模型最佳激活參數量以及訓練token數。

2、路由和訓練策略:1)共享專家路由策略,共享專家負責處理共享的通用能力和知識,特殊專家負責處理任務相關的特殊能力;2)回收路由策略,有效激活每個專家的能力,使每個專家保持相對均衡的負載,充分利用訓練數據,保證模型的訓練穩定性和收斂速度;3)專家特定學習率適配策略,根據學習率和Batch size的縮放原則,爲不同專家適配不同的最佳學習率,以提高模型訓練效率。

3、高質量的合成數據:混元團隊在天然文本語料庫的基礎上,利用混元內部系列大語言模型構建了覆蓋數十個類目的高質量、高多樣性、大量級的中英文合成數據,顯著提升模型效果,其中數學和代碼效果提升超過10%。

4、長文能力優化:針對長文領域測評數據集缺乏、方法不夠客觀等問題,騰訊混元Large基於公開數據,自研企鵝卷軸(PenguinScrolls)數據集,覆蓋各種深度閱讀理解、長文推理任務。爲了填補行業真實長文評測集不足,騰訊混元即將開源企鵝卷軸評測集。

騰訊混元Large模型專項提升的長文能力已應用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當於一本《三國演義》的長度,可一次性處理上傳最多10個文檔,並能一次性解析多個微信公衆號鏈接、網址,使騰訊元寶具備獨有的深度解析能力。

5、推理加速優化:爲了提高推理效率進行KV Cache壓縮,使用Grouped-Query Attention (GQA)和Cross-Layer Attention (CLA)兩種KV cache壓縮策略,從head/layer兩個維度聯合壓縮KV Cache,並引入量化技術,進一步提升壓縮比,最終將模型的KV Cache壓縮爲MHA的5%,大幅提升推理性能。

6、Post-train優化:針對SFT難獲取高質量數學、代碼等數據的問題,構建百萬量級合成數據,分門別類提升數學、邏輯推理、代碼等能力;針對RLHF泛化性弱的問題,在離線DPO的基礎上引入了二階段在線強化策略,實現整體效果處於業界頭部水平,文本創作、知識問答、數理邏輯及代碼能力相較競品有一定優勢。

二、業界首個同時支持文字、圖像生成的開源3D生成大模型

無論是遊戲創作,還是工業設計、建築設計等專業建模,抑或是一些社交娛樂、電商、數字孿生、PCG/UGC創作領域,都會用到3D。

傳統3D資產製作存在建模門檻高、製作週期長、製作成本高等痛點,單模型製作平均要1~7天、成本耗費百萬到上萬元。騰訊混元3D生成大模型則能將單個3D模型製作成本降低至不到1元。

騰訊混元3D生成大模型首批開源模型包含輕量版和標準版,輕量版僅需10秒即可生成高質量3D資產,已在技術社區公開發布,包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。

本次開源的是1.0版本,後續還會有更完善、更先進的模型陸續發佈。

3D生成是一個較新的領域,今年學術界相關論文開始涌現,工業界3D模型的效果越來越好,但大多數是閉源。

此次騰訊混元開源的3D生成大模型Hunyuan3D-1.0 ,解決了現有的3D生成模型在生成速度、泛化能力、生成質量上存在不足的問題,可以幫助3D創作者和藝術家自動化生產3D資產。

該模型可重建各類尺度物體,大到建築,小到工具花草。

Hunyuan3D-1.0採用DiT架構,與混元DiT生圖聯合,支持原生中文,支持風格定製。

其技術架構引入多視圖擴散,藉助二維數據優勢提升3D泛化性,改進點包括:

1、持續擴展數據規模、類目、質量、渲染方式,提升泛化性。

2、精細度提升:升級時空自適應CFG引導方式,針對不同去噪步數、不同視角,設置不同權重,平衡可控性與多樣性,不犧牲生成質量且提升生成清晰度。

3、輸入角度魯棒性:兼容任意輸入視角,通過學習到的俯仰角度矯正,提升多視圖準確性與一致性。特徵平面超高特徵分辨率和引入任意視角的輸入圖進一步提升了3D生成精度。

經過定性、定量多個維度的評估,Hunyuan3D-1.0兼顧快速和高質量生成,已達到開源模型的先進水平。

在兩個公開的3D數據集GSO與OmniObject3D上,騰訊混元Hunyuan3D-1.0效果優於主流開源模型,整體能力屬於國際領先水平。

從定性角度評估,Hunyuan3D-1.0與行業領先的開源模型的3D生成效果表現對比也顯示出較高水平,包括幾何細節、紋理細節、紋理-幾何一致性、3D合理性、指令遵循等評價維度。

從生成結果可視化來看,Hunyuan3D-1.0能夠更加真實地恢復出3D資產的幾何形狀和紋理細節,泛化能力出色。其文生3D能力支持在45秒內基於文本生成3D資產,圖生3D能力支持在30秒內基於文本生成3D資產。

文生/圖生3D內網接口已上線。

根據演示,混元3D能夠根據提示詞快速生成一個萬聖節的南瓜燈,還能將其更改成樂高風格,操作很方便。

應用方面,3D生成相關技術已經開始應用於UGC 3D創作、商品素材合成、遊戲3D資產生成等騰訊業務中。

此前,騰訊元寶App上線了“3D角色夢工廠”玩法,支持個性化的UGC 3D人物生成。只需上傳一張照片,就能生成個人專屬3D角色,將3D個性定製建模費用降到0.2元。這有助於玩具製作、3D打印等行業的技術革新。

騰訊地圖基於騰訊混元3D大模型,發佈了自定義3D導航車標功能。用戶上傳一張圖,就能生成個性化的3D導航車標,比傳統3D車標重建方案提速91%。

後續,混元3D模型團隊將持續探索多視圖生成、3D擴散模型、自迴歸生成等3D生成路線,最終目標落地3D管線。

三、騰訊混元這一年:升級高性能MoE模型,發佈原生大模型應用

康戰輝回顧了騰訊混元大模型過去一年多的發展。他談道,騰訊混元不急於爲了開源而開源,在內部業務打磨好後再開源,開源模型與公司內應用模型同宗同源。

模型效果持續提升,建立在全棧自主可控的能力。騰訊混元Large模型的訓練和推理均基於騰訊Angel機器學習平臺。

其中,針對MoE模型通信效率問題,Angel訓練加速框架AngelPTM實現了多項技術優化,性能是主流開源框架DeepSpeed的2.6倍;針對模型推理加速,騰訊Angel機器學習平臺和騰訊雲智能聯合研發AngelHCF-vLLM框架,在最大限度保障精度的條件下,可節省50%以上顯存,相比於業界主流的框架BF16吞吐提升1倍以上。

騰訊混元模型包括領域模型和通用模型,有1B、3B、7B、13B、70B等不同尺寸,覆蓋六大BG多場景業務。

騰訊混元大模型PaaS平臺開放支持包含混元Large模型在內的十餘種混元API服務調用,可滿足文生文、圖生文、文生圖等不同模態以及角色扮演、FunctionCall、代碼等不同專項的模型需求。

2024年年初,騰訊混元就宣佈在國內率先採用MoE架構模型,總體性能比上一代密集模型提升50%。此後,騰訊混元推出基於MoE架構的多模態理解大模型以及基礎模型”混元Turbo”,在性能、效果、速度等多個領域表現優越,第三方測評居國內大模型第一。

相比同構MoE騰訊混元Pro,今年9月發佈的異構MoE混元Turbo將推理效率提升1倍以上,成本下降50%,解碼速度快20%。

多模態理解大模型混元-V也在持續升級,解鎖文字、圖像、3D、視頻等更多模態,今年8月在SuperCLUE-V多模態理解評測基準總榜中排名第一。

文生圖方面,今年5月,騰訊混元全面開源業界首箇中文原生DiT架構文生圖大模型,評測結果國內領先。還有今天宣佈開源的文/圖生3D模型,單張圖30秒可生成3D模型,效率與質量均在業內領先。

混元已全面接入騰訊業務,並通過騰訊雲向合作生態進行賦能。騰訊內部有超過700個業務接入混元。

面向C端,微信讀書的AI大綱、AI問書功能,騰訊元寶的AI搜索、AI閱讀、AI角色對話等功能,都接入了騰訊混元的能力。

混元原生大模型應用騰訊元寶的AI搜索會提供可溯源引文,引文數量多、時間新、信源優質;通過延伸閱讀,來滿足用戶對周邊信息的獲取需求,還會列關聯問題,以引導追問學習。

其AI閱讀功能具有強大的文檔處理能力,可處理多格式、多文件、長記憶文檔;AI精讀支持圖文輸出、知識圖譜總結、延伸閱讀推薦,有助於提升學習深度和廣度。

此外,騰訊元寶提供了角色對話、劇情互動、劇照cos等更多玩法。例如智能體應用AI角色對話成爲了騰訊視頻劇集宣發的新亮點,長相思AI角色對話的總熱度達到近2億,“相柳”單角色熱度打到1.7億,人均對話prompt數爲167.3,衍生角色“毛球”的對話率超過90%。

面向B端,騰訊旗下SaaS協作產品全面接入混元,包括騰訊文檔、騰訊會議、企業微信等。

混元大模型還幫助騰訊廣告多場景提效,比如生成創意爆量素材、輔助內容商業價值理解、廣告推薦結果生成。

結語:堅定擁抱開源,預告多款後續模型

隨着自研大模型技術強大的和應用實踐經驗的豐富,開源已成爲騰訊混元大模型的一個戰略選擇。

據康戰輝分享,混元未來的模型開源戰略是“擁抱開源,自主可控,堅持協同”。

騰訊在今年5月開源業界首個原生中文DiT圖生文大模型混元DiT,今日又開源混元Large大語言模型,並將陸續開源混元AnglePTM和AngelHCF等大模型工程框架,未來還將陸續推出混元-M、混元S等模型。

全面開源的混元3D生成模型,面向企業、個人開發者提供商用品質的3D開源模型,可直接部署,降低3D資產的生產週期、成本;面向科研學者提供更大的3D基礎模型,以加速新方法研究探索。未來混元3D原生大模型、混元3D自迴歸大模型等更多開源模型將陸續上線。

騰訊混元計劃後續推出更多模態、更多尺寸的開源模型,將更多經過騰訊業務場景打磨和檢驗的模型開源,促進大模型技術進步和行業生態繁榮。