文心大模型日均調用量超7億,百度竭力爲其尋找落地機會
9月25日上午,百度在雲智大會上推出百舸AI異構計算平臺4.0和千帆大模型平臺3.0等AI基礎設施產品,並公佈了多項AI相關業務的最新數據。其中,文心大模型日均調用量已經超過7億,距離百度上次公佈的6億數據有進一步提升。
在剛結束的阿里雲棲大會上,阿里巴巴CEO吳永銘曾表示,阿里雲的單網絡集羣已經拓展至10萬卡級別,而百度也不甘於落後。百度集團執行副總裁、百度智能雲事業羣總裁沈抖特別強調,百舸4.0將不僅僅是萬卡集羣,而是具備了成熟的10萬卡集羣部署和管理能力。
百度今年一直在強調大模型的落地應用。百度CEO李彥宏在最近一次內部講話中表示,具備應用場景、能夠持續迭代升級的大模型,與其它模型產品的差距會越來越大。
基於此,百度找來了長安汽車和三星等大量客戶爲其站臺,以展示百度大模型在各行各業的落地應用成果。
沈抖表示,過去一年,百度感受到客戶的模型需求猛增,需要的集羣規模越來越大,企業對模型推理成本下降的預期也越來越高。
訓練大模型的前提是創建集羣,這並非簡單地買來GPU組裝即可,通常需要幾個月的時間進行設備配置和調試。
此前有云廠商提到,組建集羣可以壓縮到1天,而沈抖稱,百舸4.0能夠做到最快1小時完成組建,主要採用將業界流行訓練工具和框架進行內置的方式。
一旦進入到大規模訓練階段,最重要的就是穩定性。大模型領域一直遵循著名的Scaling Law(尺度定律),認爲模型性能會隨着參數、算力和數據集的規模增加而提高。
根據沈抖的說法,GPU集羣需要耗費鉅額的建設和運營成本,通常建設一個萬卡集羣,單是GPU的採購成本就高達幾十億元。如果是10萬卡集羣,服務器一天消耗的電量大約是300萬千瓦時,相當於北京東城區一天的居民用電量。
在這種大規模的集羣上,硬件不可避免會出現故障,規模越大,出故障的概率越高。在這些故障中,絕大多數是由GPU引起的,因爲GPU是非常敏感的硬件,對溫度、溼度等環境波動反應靈敏。
沈抖提到,Meta訓練Llama3模型時,用了1.6萬張GPU卡的集羣,平均每3小時就會出一次故障。
大模型的訓練是龐大的單一任務,一個節點出錯,整個集羣就需要停下,並回滾到上一個記憶點。考慮到GPU集羣的成本非常昂貴,每多停一分鐘就會白白燒錢,“有效訓練時長”便成爲非常重要的指標。
針對大模型訓練過程中故障頻發的問題,百舸4.0對故障檢測手段和自動容錯機制進行了升級,目前萬卡集羣上的有效訓練時長達到99.5%,沈抖稱這高於同行對手的數據表現。此外,百舸4.0將主流的長文本推理效率提升了1倍以上,同時降低了推理成本。
在百度最新的財報電話會上,李彥宏曾透露,二季度百度智能雲AI貢獻的收入佔比進一步提升至9%,而上一季度爲6.9%。
大模型工具的性能提升固然重要,但對於百度來說,模型落地的成果更具有現實意義。
除升級百舸平臺外,百度還着重介紹了最新的千帆3.0平臺。根據沈抖公佈的數據,在千帆大模型平臺上,文心大模型日均調用量超過7億次,累計幫助用戶精調了3萬個大模型,開發出70多萬個企業級應用。千帆3.0可調用包括文心繫列大模型在內的近百個國內外大模型,也支持調用語音、視覺等各種傳統的小模型。
目前,大模型落地的三大主要需求分別是應用開發、模型推理和模型開發。
在應用開發層,企業級RAG(將企業和行業數據做成外掛知識庫給大模型)和Agent智能體是兩大常見的大模型落地場景。
其中,智能體接到任務後,會進行自主思考、任務拆解、方案規劃,並調用工具,全程自主進行,能夠完成過往需要3到4個APP才能完成的任務。
沈抖表示,百度內部爲千帆平臺提供了百度搜索和百度地圖等超過80個官方組件,用來提升智能體在特定任務上的能力。
而在李彥宏看來,智能體是大模型發展的下一個重要方向。“有很多人看好智能體這個發展方向,但是到今天爲止,智能體還不是共識,像百度這樣把智能體作爲大模型最重要的戰略、最重要的發展方向的公司並不多。”
百度在今年的Create大會上曾發佈過三款產品,分別是AgentBuilder、AppBuilder和ModelBuilder。其中,AgentBuilder和AppBuilder都與智能體相關,一個門檻更低,另一個更強調功能性。
根據百度最新透露的數據,智能體在百度生態的分發量大幅增加,7月日均分發次數超800萬次,爲5月數據的兩倍。
百度旗下數字人平臺和智能客服產品也有了最新進展。其中曦靈數字人平臺4.0,支持根據文字快速生成不同妝造、不同行業特色的3D數字人形象和視頻,並將3D超寫實數字人的價格從萬元降至199元。
智能客服產品“客悅”則在用戶意圖理解、多模態信息交流等方面進行了優化,提升了處理複雜問題的能力。
按照百度的說法,目前業內“問題自主解決率”的平均水平是80%,升級後“客悅”將這一指標提升至92%。該產品已累計幫助企業客戶服務超過1.5億人次,交互超5億次。