上新大模型2.5版 阿里雲緊追慢趕

2023年密集升級後,國內大廠大模型的迭代節奏轉爲小步快跑。5月9日,阿里雲CTO周靖人揭開了最新版大模型通義千問2.5的面紗,並系統性披露了阿里雲AI應用的一系列新進展。

站在C(用戶)端角度,抖音旗下AIGC應用豆包的月活用戶排名第一,且數據已拉開差距。B端競爭更加劍拔弩張,閉源開源孰優孰劣的背後是大模型技術、成本、商業化、生態的比拼,阿里雲用1100億參數的開源大模型證明自己的誠意,3%的營收同比增幅也實實在在地反映了阿里雲的瓶頸。

新版本

和上線通義千問2.1版本相比,阿里雲這次公佈2.5版本要高調得多。“這個版本代表了全方位的能力提升”,周靖人用理解能力、邏輯推理、指令遵循、代碼能力舉例,2.5版本較2.1版本分別提升9%、16%、19%、10%。

將時間拉長,2023年4月通義大模型啓動邀請測試,一年間行業發生的變化讓從業者都倍感驚訝。

在周靖人看來,目前整個技術體系的發展在一個快速上升的渠道,不過目前市面上的大模型工具都還有提升空間。

爲了證明自己的大模型能力,阿里雲和同行的操作一致——援引評測結果:在權威基準OpenCompass上,通義千問2.5得分追平GPT-4 Turbo;通義千問視覺理解模型Qwen-VL-Max在多個多模態標準測試中超越Gemini Ultra和GPT-4V,目前已在多家企業落地應用;通義千問代碼大模型CodeQwen1.5-7B則是HuggingFace代碼模型榜單Big Code的頭名選手,是智能編碼助手通義靈碼的底座。

按照通義千問官網的歸納,其基於大模型的服務共有10項,包括大模型服務平臺阿里雲百鍊、AI閱讀助手通義智文、剛發佈企業版的通義靈碼等。企業客戶和開發者可以通過API(應用程序編程接口)調用、模型下載等方式接入通義,個人用戶可從通義App、官網和小程序免費使用通義家族全棧服務。

N合一

這些垂直領域的產品也在不斷調整。5月9日,“通義千問App”更名爲“通義App”。升級前,通義App設有三個入口:對話、智能體、頻道,升級後變爲助手、工具、角色、頻道。2024年通義推出的“全民舞王”“全民唱演”“通義照相館”等應用在頻道一欄。

兩個月前,通義聽悟工程研發負責人邢君就向北京商報記者透露了通義聽悟集成進通義App的計劃。5月9日,阿里雲相關人告訴北京商報記者,“目前,包括通義聽悟、智文等通義家族產品能力已集成到通義App中”。

根據蘋果應用商店數據,通義在免費效率榜單排在第13位,同類的大模型產品還包括豆包、文心一言、訊飛星火、智譜清言、天工、kimi等。

第三方商業智能數據服務商QuestMobile發佈的最新數據顯示,AIGC獨立App用戶量超7380萬,同比增長8倍。2024年3月,豆包、文心一言、天工、訊飛星火、Kimi的月活用戶分別是2328.2萬、1466.1萬、966.1萬、620.4萬、589.7萬。

這一排名等同於國內大模型的能力嗎?文淵智庫創始人王超的答案是否定的,他告訴北京商報記者,“還是要以用戶的使用感受爲第一,而不是月活規模。我個人的排名是Gemini免費版、GPT3.5和Kimi差不多、通義千問、文心一言”。

除獨立App外,小程序也是大模型接觸用戶的主要渠道。根據QuestMobile提供的Kimi和訊飛星火的數據,2024年3月Kimi微信小程序月活用戶91.1萬,訊飛星火去重總用戶規模635.6萬。

繼續開源

“用戶活躍度能一定程度上反映大模型產品的市場格局。受到用戶屬性、產品體量和活躍度影響,目前豆包和文心一言的用戶量級明顯較高,但從產品功能來看,kimi的使用場景更爲垂直,這意味着kimi近600萬的活躍用戶黏性更高,用戶的忠誠度和未來的運營空間也會更大。”瑞達恆研究院經理王清霖告訴北京商報記者,“通義這類大模型產品也可以結合阿里自身的產品屬性優勢,找到自己的發展方向和黏性用戶。”

開源閉源的優劣則是行業觀察者聚焦的重點。4月,百度CEO李彥宏公開表示,“大家以前用開源覺得便宜,其實在大模型場景下,開源是最貴的。所以開源模型會越來越落後”。5月9日,周靖人接受媒體採訪時回答的第一個問題也與此有關。“開源對整個技術發展的意義大家都可以看到。阿里雲自己做最先進的AI模型,也敢於開源,這對企業真正做創新性開發將起到至關重要的作用,這一點在全球範圍已經被多次證明,沒有再討論的必要。”

“坦率地說,不是所有的閉源公司的模型都能做得過開源模型,首先閉源公司的模型水平要超過開源模型的水準。”周靖人補充。

當天,阿里雲發佈了最新款開源模型1100億參數的Qwen1.5-110B,此前5億、18億、40億、70億、140億、320億和720億參數的大模型已經開源。

談到最近大火的長文本處理能力,周靖人強調了兩點,支持、先發,“我們的長文本處理功能其實是先於行業所有公司的,通義App單次可處理多達1000萬字的長文檔,還能同時解析100份不同格式的文檔。長文本處理能力不光要看文本的長度,還要基於場景做總結、歸納等,誰的技術更強這種討論沒必要”。

北京商報記者 魏蔚