大模型拼應用最新戰況:智能助手扎堆襲來

AI將成爲人類從事各種生產和活動的代理。AI等技術的大規模應用將重塑人的內涵,進而重塑人們的社會關係。

“出圈”近兩年的大模型,正迎來應用邊界的進一步拓寬。

9月5日開幕的2024Inclusion·外灘大會上,復旦大學計算機科學技術學院教授黃萱菁分享了AI智能體(AI Agent)最近有多“熱”:不僅工業界的國際國內巨頭公司開始佈局研發基於大語言模型的智能體,學術界把智能體用於科研創新如預測、分析多蛋白複合物結構,衆多開發者還在聊天、購物、遊戲、具身智能(具有物理實體並具備感知、決策、執行及交互能力的智能體——記者注)等領域應用智能體。

“大語言模型更偏向於對話與答疑,基於大模型的智能體更像人類的助手,偏向於感知環境、規劃決策並採取行動。”黃萱菁介紹,目前,智能體應用已經適配在出行、政務民生、餐飲、景區、醫療、金融等領域場景。

大會開幕當天,AI生活管家、AI金融管家、AI健康管家等AI智能體亮相黃浦江畔。在大會所在地、曾見證我國工業發展的江南造船廠舊址,共30餘項AI新成果相繼發佈。

在清華大學人工智能研究院常務副院長孫茂松看來,當前智能體的發展得益於語言大模型在生成能力、代碼生成、圖像處理及3D建模等方面的進步。他認爲,智能體技術正潤物細無聲地走進大衆生活,但這是一個量變引起質變的過程,“可能需要通過幾年迭代和積累,其性能纔會有顯著提升。”

從“拼參數”到“拼應用”

從1年半前的百模大戰,到今年5月大模型領域掀起的價格戰,出席本次大會的不少大模型廠商感受着大模型近兩年來發生的變化:性能提升和成本下降。

“去年行業主要在做模型基礎,中國也在巨大的市場期望裡跟進追趕、證明自己。”百川智能創始人兼CEO王小川習慣用“全新的時代”形容智能時代,他說,在智能時代,大模型帶來的是生產力的直接提升。

一個明顯的案例是,去年12月谷歌公司推出的大語言模型Gemini在MMLU(大規模多任務語言理解)測試中,以90.0%的高分首次超過人類專家。該大模型從一開始就被創建爲多模態模型,這意味着它可以歸納並流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

“大模型正從‘拼參數’走向‘拼應用’。”螞蟻集團總裁韓歆毅認爲,大模型產品的目標可以濃縮爲:好用、有用和用得起。對於用戶,這意味着一種全新的、更加直觀的交互體驗;而對於商家,則意味着能夠更深入地理解用戶需求,進而提供更加結構化和個性化的服務。

他以大會開幕首天發佈的AI生活管家“支小寶”爲例說,該應用基於螞蟻百靈大模型打造,具備國內首創的服務執行與智能陪伴能力。

具體來看,用戶說句話就能辦到的事包括快速訂票、點餐、打車、查詢附近吃喝玩樂、看醫保餘額、異地就醫備案、給親友轉賬或發紅包、搜尋電子社保卡等。

“智能體能發揮大語言模型的專業性,帶來各種服務的迭代升級。”在黃萱菁看來,具身語言智能體所具備的視覺問答、圖片生成、標題生成、動作規劃和操控等多模態的輸入和具身輸出的方式,很可能是邁向通用人工智能的關鍵之一。

《連線》雜誌創始主編、《5000天后的世界》作者凱文·凱利則認爲,AI落地產業需要時間,“僅僅消化現有技術,可能就需要5-8年時間。”他在與韓歆毅線上對談時表示,目前人們把AI主要運用於一些工具型任務,價值主要體現在提升效率上。他認爲,金融和醫療領域會最先應用並受益於AI的發展,“因爲這兩個行業信息密度高。此外,廣告和營銷行業也會是最早受到影響的行業之一。”

人機交互新方式

讓數字分身分擔工作,由AI健康管家找醫生、讀報告、陪看診,用語音喊AI金融管家幫助解讀市場熱點、分析行業板塊……適配不同領域場景的AI助手正進入人們的生產與生活。在復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華看來,AI將成爲人類從事各種生產和活動的代理。AI等技術的大規模應用將重塑人的內涵,進而重塑人們的社會關係。

香港科技大學校董會主席、美國國家工程院外籍院士沈向洋則認爲,AI智能體時代的到來,不會是一個神奇而強大的模型突然代替了所有的工作流,“它涉及技術、工程與市場的不斷磨合,最終以超預期的服務呈現給人類。”

他尤其提到人機交互的新方式指向“AI與IA(Intelligent Augmentation,即智能增強——記者注)”的融合共進。這意味着一種以人爲本的AI發展路徑,它聚焦於運用技術提升人類的能力,而非取代人類,強調人類與AI之間的協作關係。

“(大模型產業)未來的發展路徑已經非常明確,將會從之前的大語言模型到多模態模型,未來邁向世界模型。未來一定會往具身智能方向上發展,往機器人方向走,其中一個特殊形態就是自動駕駛。”沈向洋從算力角度介紹,大模型可分爲通用大模型、行業大模型、企業大模型和個人大模型,其中通用大模型是AI的基礎,要訓練一個通用大模型至少需要萬卡,行業大模型是做領域應用的底座,需要千卡級別的訓練。

國家網信辦數據顯示,截至2024年7月30日,我國已經完成備案的生成式人工智能服務大模型已達197個,從大模型的類型看,通用大模型、行業大模型分別佔比31%、69%。從行業大模型的類型看,教育領域19款、金融領域18款、辦公領域15款、政務領域11款、醫療領域11款,且正在向傳媒、招聘、家裝、心理等更廣闊的場景延伸。

“更多高質量、高價值的數據是在私域,在垂直行業,在千行百業,再往前走就是個人數據。”在肖仰華看來,目前的大模型還不能夠勝任專業任務,要想做到提供專業任務,用好私域數據可能是關鍵,“所以數據待挖掘的潛力仍然十分之大。”

關注“走得慢”的人

可以肯定的是,以智能體爲代表的AI助手在幫助解決具體問題上具備優勢。用西湖大學深度學習實驗室成果轉化負責人、西湖心辰CEO醒辰的話來說,大部分語音大模型在智商賽道不停比拼,“但大量的溝通場景不是光靠智力就可以完成,還需要情商與溝通能力。”

這也是很多人面對AI助手的真實需求。既是教師又是父親的嚴鋒,是復旦大學中文系教授、博士生導師,他在大會期間參加圓桌討論“AI重塑未來生活的無限可能”時坦言,自己最希望有一個AI助手、機器人來陪伴自己的孩子。“因爲我的孩子是一個孤獨症患者,孤獨症的核心問題是人際交往(存在)障礙。”

“我買了很多智能音箱,我相信這是未來通向陪伴機器人的一種先驅,它們也在進化。”嚴鋒說,正是通過有意識地問這些放在客廳、臥室的智能音箱,他知道了孩子感興趣的是遠古動物、中世紀曆史,“我再向音箱提問的時候,孩子就會主動參與進來。”

好消息是,針對陪伴領域的個性化需求如情緒疏導、客戶服務、兒童陪伴等,已有應用落地。醒辰以大會期間正式發佈的國內首款端到端通用語音大模型心辰Lingo爲例說,該大模型在處理對話時直接理解語音,捕捉語氣、節奏和情緒,並進行語音回覆,通過減少信息處理過程中的損失,讓“機器”更懂人。

“近幾年大部分AI數字人都是以工具來設計的,所以它首要目的是解決用戶遇到的問題,其次纔是提供情緒價值。但是隨着很多AI技術的快速發展,大模型智能體對話能力越來越強,設計者開始更多關注數字人等AI助手如何更好地去解決情感方面的問題,提供情緒價值。”螞蟻集團數字人算法負責人楊明暉告訴中青報·中青網記者,隨着動態大模型包括視頻生成技術的快速發展,可能到明年就會有比較成熟的數字人方面的應用,“你輸入一張圖片,然後就可以和圖片中的角色語音對話,角色的表情和動作都可以生動自然。”

強腦科技創始人兼CEO韓璧丞認爲,在技術發展非常快的時候,科研工作者應該更關注那些“走得慢”的人,比如肢體障礙人士、腦疾病患者羣體。

過去10多年,這名哈佛大學腦科學中心博士生一直專注於腦機接口底層技術的研發。他認爲,腦機接口技術在未來5-10年內,會發生3個階段的變化,分別是修復、增強和更高階的交互。“下一代的交互會變得更高階,比如現在是通過語言對話,未來可能不需要再通過語言對話,收到提問我們想一想就(把想法)傳遞出去了。”

中青報·中青網記者 朱彩雲 來源:中國青年報

來源:中國青年報