不走Transformer路線,彩雲科技推出通用大模型雲錦天章 | 最前線
文 | 王方玉
編輯 | 蘇建勳
目前絕大多數生成式AI產品的底層技術都源於2017年穀歌提出的Transformer模型架構,而國內一家AI創業公司——彩雲科技卻獨闢蹊徑,開發出了全新的模型架構DCFormer,並基於此推出新產品。
11月13日,彩雲科技在北京總部發布了首款基於DCFormer架構開發的通用大模型雲錦天章。
據CEO袁行遠介紹,雲錦天章可以實現在虛構世界觀的基礎上,賦予小說人物編程、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數學、編程等基礎能力。
除了擅長的應用場景不同,雲錦天章與常規大模型最大的差異還在於底層模型。據介紹,通過改進注意力矩陣,在相同訓練數據下,DCFormer架構最高可以將算力智能轉化率提升至Transformer的1.7到2倍。
此外,DCFormer是在Transformer的基礎上進行改進,能夠和現有的模型疊加,而不是互斥,因此所有基於Transformer架構的大模型都能在DCFormer的基礎上降低成本。
彩雲科技關於DCFormer架構成果的相關論文已於今年5月在第41屆國際機器學習大會ICML 2024正式發表,該會議是國際機器學習領域的三大頂會之一。此外,DC Former的模型代碼、權重和訓練數據集,也已經在Github全部開源。
爲何選擇另闢蹊徑採取DCFormer架構?袁行遠告訴36氪,AI在運行過程中對能源的巨大需求已成爲行業共識,改善模型底層架構以提高效率是應對這一挑戰的最佳策略。模型效率的提升,也可以有效地降低人工智能升級迭代的成本,加速AI時代的到來。
雖然DC Former架構可以壓縮大模型訓練推理的成本,但彩雲科技在商業化探索方面相對謹慎,關注投入產出比。
目前彩雲科技旗下有彩雲天氣、彩雲小夢、彩雲小譯三款面向C端用戶的AI產品,在全球市場獲得了超過1000萬美元的ARR(年度經常性收入),是國內爲數不多能夠實現盈利的人工智能公司。其最近一輪融資是由快手前CEO宿華個人投資的B2輪,投前估值達到1.2億美元。
袁行遠告訴36氪,彩雲科技對DCFormer架構的研究及應用開發,主要服務於自身業務。目前,彩雲小夢基於V3.5模型,在保持邏輯通順與描寫細緻的前提下單次可以創作幾百字到一千字的內容,未來有望突破到2-5千字的創作,實現更強的智能水平和更高的用戶活躍度目標。