小米大模型升級第二代:雲邊端結合模型矩陣賦能「人車家全生態」
2023年作爲AI大模型的發展“元年”,見證了人工智能技術在全球範圍內的跨越式發展。這一年,AI浪潮以前所未有的勢頭進行着革命性的突破,重塑了產業格局。在這場技術變革中,小米憑藉獨特的技術洞察,開創性地提出了將"輕量化、本地部署"作爲突破點,業界第一個在手機芯片NPU上跑通十億參數規模大語言模型,驗證了端側小模型在部分目標場景可以取得媲美雲端大模型的效果。
2023年8月小米首次發佈小米自研大模型並跑通端側
而過去的這一年多時間裡,國內自主研發的大模型生態系統日趨完善,在激烈的市場競爭中,技術迭代週期不斷壓縮,大模型的產業落地進程明顯加速,與此同時,多模態技術與智能體等前沿領域正在開啓技術創新的新篇章,成爲引領行業發展的新動能。
在模型規模方面,我們見證了一個極具特色的發展趨勢:
這種"雙向突破"的技術路線,不僅展現了AI技術的極致追求,更彰顯了其在實際應用中的靈活適配能力。
在此行業背景下,小米大模型團隊亦專注於提升自研大模型的模型能力和「端」「雲」協同的落地效果,力求以行業領先的AI能力全面賦能「人車家全生態」戰略,實現多個場景下的無縫銜接,爲用戶提供全方位的智能服務,打造更加智慧和便捷的生活體驗。而小米第二代自研大模型的推出無疑是這一戰略的重要支撐點。
目前小米大模型已經實現了從一代到二代(MiLM2)的升級迭代。此次迭代不僅擴充了訓練數據的規模、提升了數據的品質,更在訓練策略與微調機制上進行了深入打磨,增強了技術實力並全面升級了配套的部署技術。小米第二代大語言模型的幾個主要升級是:
01 小米自研大模型技術探索與創新
小米大模型團隊在預訓練、後訓練、量化、推理加速等方向做了大量的技術探索和創新,並將部分成果以論文的形式發佈出來,推動大模型技術的發展。
在2024年,小米大模型團隊發表了11篇論文(5篇ACL、3篇EMNLP、1篇NeurIPS、1篇ECAI、1篇COLING),申請了30+項發明專利,其中部分代表性的工作如下:
02 MiLM2實力進階,二代效果全方位提升
二代模型MiLM2系列融合多項前沿技術,實現技術能力升級的同時模型效果全面超越前代,其中,MiLM2-6B模型與MiLM2-1.3B模型經過進一步升級打磨,實力更上一層樓
小米大模型團隊採用自主構建的通用能力評測集Mi-LLMBM2.0,對最新一代的MiLM2模型進行了全方位評估。該評測集涵蓋了廣泛的應用場景,包括生成、腦暴、對話、問答、改寫、摘要、分類、提取、代碼處理以及安全回覆等10個大類,共計170個細分測試項。以MiLM2-1.3B模型和MiLM2-6B模型爲例,對比去年發佈的一代模型,在十大能力上的效果均有大幅提升,平均提升幅度超過45%。
小米的「人車家全生態」戰略,旨在構建一個涵蓋人、車、家等多元化生活場景的超級智能生態系統。在這個系統內,實時交互成爲常態,每時每刻都需要精確對接用戶千差萬別的個性化需求,這對於大模型的生成、閒聊、翻譯等能力提出了更高的要求。在這些關鍵能力上,MiLM2-6B模型的評測成績十分優異,對比業內同參數規模模型也有較優的效果。
03 MiLM2模型矩陣,雲邊端結合賦能「人車家全生態」
MiLM2模型矩陣主要在參數規模和模型結構兩個方面打造縱深,目的是爲了適應多元化的業務場景並在小米生態中挖掘更多的落地場景
大模型的迭代,也是一個重點突破、打磨模型矩陣的動態過程。在堅持輕量化部署的大原則下,小米自研大模型團隊充分考慮了集團內部多元化的業務場景及不同落地場景的資源限制,構建並不斷擴充了自研大模型的模型矩陣,將大模型的參數規模靈活擴展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多個量級,以適應不同場景下的需求。
小米自研大模型矩陣不僅包含多樣的參數量級,同時也納入了各種不同的模型結構。在二代模型系列中,大模型團隊特別加入了兩個MoE(Mixture of Experts,即混合專家模型)結構的模型:
兩個模型的差異主要體現在訓練總參數量、詞表大小等方面。MoE模型的工作原理是將多個承擔特定功能的“專家”模型進行並行處理,進而綜合各模型的輸出來提高整體預測的準確度和效率。以MiLM2-2B×8爲例,根據評測結果,該模型在整體性能上與MiLM2-6B不相上下、表現出色,而解碼速度實現了50%的提升,在保證模型性能不打折扣的同時,提升了其運行效率。
04 「端」「雲」並重:4B模型端側落地,30B模型雲端部署
端側新增4B模型
小米是全球最大的 IoT 設備製造商,不僅需要解決 AI 大模型在終端設備上如何高效部署的問題,攻克存儲空間和內存帶寬等方面的難題,還需在各類場景中確保用戶的隱私和數據安全。去年,小米的大模型團隊在端側部署方面取得了顯著進展,使小米成爲業界首個在移動設備上成功運行1.3B和6B大模型的公司。隨着二代大模型的迭代更新,端側部署技術也有了新的突破,新的 4B 模型將在端側發揮更重要的作用。
小米大模型團隊創新性地提出了“TransAct 大模型結構化剪枝方法”,僅用8%的訓練計算量即從6B模型剪枝了4B模型,訓練效率大大提升;同時小米大模型團隊自研了“基於權重轉移的端側量化方法”和“基於Outliers分離的端側量化方法”,大幅降低了端側量化的精度損失,對比業界標準高通方案,量化損失下降78%。MiLM2-4B模型總共40 層,實際總參數量爲3.5B,目前已經實現在端側部署落地。
雲端新增30B模型
MiLM2-30B 模型是小米二代大模型系列中參數量級最大的模型,專爲雲端場景設計 。在雲端環境中,大模型面臨着多樣化和高難度的挑戰,需要更高效地遵從並執行用戶的複雜指令,深入分析多維度任務,並在長上下文中精準定位信息。針對這些重點目標,大模型團隊選擇了一系列開源的評測集,對 MiLM2-30B 模型的專項能力進行評估。結果表明,MiLM2-30B 模型在指令遵循、常識推理和閱讀理解能力方面均有超越主流競品的出色表現,具體的評測集和評測結果如下:
目前,小米第二代自研大模型取得的進步和成果,已經開始滲透到真實的業務場景與用戶需求中,不僅幫助集團內部解決了多樣化的業務需求、實現工作提效,也已經在澎湃OS、小愛同學、智能座艙、智能客服中開始應用落地。
未來,小米大模型團隊將持續探索前沿技術,不斷突破自我,以期在雲邊端結合的框架下,實現自研大模型的全面升級與應用,爲用戶提供更加智能、便捷、個性化的服務。同時,團隊還將緊密圍繞「人車家全生態」場景,深入挖掘用戶需求,不斷優化產品功能,致力於打造一個更加智能、安全、舒適的生活環境,讓科技更好地服務於人類生活。