李開復對談張亞勤:大公司不敢採取顛覆式技術,它們已經習慣每年增長5%的預算
6月14日,中關村國際創新中心,上午七點半,已經開始有人排隊等待入場,大模型創業者們開始享受到明星般的追隨與禮遇。
在由北京智源人工智能研究院主辦的“智源大會”上,李開復直言,具身智能並不一定適合創業者;相信Scaling Law過程中不能盲目“堆”GPU;大公司、傳統公司不敢採取顛覆式技術,它們已經習慣每年增長5%的預算,做和去年一樣的事情。
大模型創業熱,但大廠羣狼環伺,在大模型降價潮的口子剛剛撕開,大廠立即下場出牌,創業公司艱難交手。不同於多年前的互聯網熱,大模型熱不到兩年,但創業者們已經開始強調性價比和產出比。
人們還在繼續追問:大模型的落地場景在哪裡?B端和C端的場景在哪裡?還有哪些機會?
李開復仍然相信技術可以永久領先,但技術帶來的領先窗口期非常短暫,一旦巨頭看到你驗證了PMF(產品市場匹配度),他們會有很多方法超越你。最終勝出的To C(用戶端)應用不僅需要技術優勢,還要在時間窗口內打造持續優勢,比如品牌優勢、社交鏈、用戶數據,讓用戶離不開這個平臺。
會上,智源研究院理事長黃鐵軍,零一萬物CEO、創新工場董事長李開復與中國工程院院士、清華大學智能產業研究院(AIR)院長張亞勤展開對談。現場聊了關於大模型的優勢與不足、大模型熱爲自動駕駛帶來機會,具身智能和AGI等熱點話題。
以下內容經界面新聞編輯和刪節
談大模型:優缺點、商業化難題
黃鐵軍:什麼原因使得大模型如此成功?還有哪些欠缺的地方需要進一步發展?
李開復: AI 2.0是有史以來最偉大的科技革命和平臺革命,大模型Scaling Law 的重要性在這個時代得以凸顯——人類能夠用更多計算和數據不斷增加大模型的智慧,這條被多方驗證的路徑還在推進中,還遠沒有觸達天花板,這點也讓大家非常振奮。
大模型的智慧來自於接近無損的壓縮,這點也非常重要。上世代的人工智能從業者很難想到今天會把壓縮和智能連接在一起。但Scaling Law過程中不能盲目“堆”GPU,需要有方法評估哪個方法做得更好。零一萬物內部採用壓縮的理念去評估,讓以往漫無目的“煉丹”訓模過程變得更系統也更有科學和數學根據。
大模型正面臨着一些挑戰,如果“僅僅用更多算力就能把它往前推動”是主要方向的話,就會導致只有那些GPU資源豐富的公司和國家能夠在這方面勝出。但話說回來,很多國內大模型在部分案例裡接近或者打平、或者偶爾超過美國大模型。需要專注算法和工程創新一體化推進,避免進入“盲目堆算力推動模型性能提升”的狀態。
張亞勤:我講“三個做對了”和“三個需要改進” 。有三件事做對了。首先,規模定律Scaling Law(規模定律)的實現,得益於對海量數據的利用以及算力的顯著提升,再加上現在的Diffusion和Transformer架構能夠高效地利用算力和數據,使得“飛輪效應”得以正循環。
有人質疑Scaling Law在2-3年後不一定有效,但我認爲至少在未來五年裡,它仍是產業發展的主要方向。
其次是“Token-Based”統一表述方式。在大模型中,“Token”是一個基本元素。無論是文本、語音、圖像、視頻,還是自動駕駛中的激光雷達信號,甚至是生物領域的蛋白質和細胞,最終都可以抽象爲一個Token。
大模型的通用性不僅體現在文本處理上,還擴展到了多模態領域,甚至可以生成如蛋白質等複雜結構。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有着廣泛的應用前景。以上這三個是大模型做對的。
大模型現階段主要存在以下三個問題:
一是大模型計算效率低下,與人類大腦的高效性形成了鮮明的對比。如何借鑑人類大腦的計算方法,在降低計算耗能、提高效率方面進行探索和創新,是一個值得關注的方向。
其次,大模型尚未能真正理解物理世界,相關的推理能力、透明性以及幻覺等問題都還在研究中。
此外,大模型做得再好,它在生成式表述與對真實世界之間仍存在矛盾。需要探索將生成式大模型與現有的“第一性原理”或真實模型、知識圖譜相結合,雖然目前已經有人採用RAG技術或進行微調。但我認爲這些方法並非根本解決方案。未來五年內,會有一個全新的架構取代目前的Transformer和Diffusion模型。
最後,大模型欠缺的地方是邊界問題。現在大模型無法知道“我不知道什麼”,這是目前要解決的問題,是它的邊界效應。
黃鐵軍:有人認爲大模型是實踐、工程,經驗主義的東西,沒有理論基礎,說得不好聽叫“不靠譜”,不知道你怎麼看這個問題?
李開復:科學和工程缺一不可。如果只做工程,不瞭解“第一性原理”,沒有數學根據、沒有辦法評估不同方法的效果,考慮到高昂的算力成本,這樣的摸索肯定做不出好模型。如果只在實驗室裡雕花,寫論文,期待有工程人才把論文做成產品,肯定也是不行的。
零一萬物的經驗是,每個做AI、做模型的Researcher要懂Infrastructure、都要懂推理、知道成本問題。訓練模型的過程中絕對不只是寫Paper,還要考慮怎樣系統化、工程化地做數據工程,還有底層的AI Infrastructure。GPU這麼昂貴,如果把一張當成兩張、三張使用,任何公司都會得到好處,所以科技和工程這兩方面缺一不可。
黃鐵軍:大模型產業化最大的場景在哪裡?移動互聯網這麼多年,To B、To C ,這兩個大賽道哪個更有機會?爲什麼?
李開復:簡單來說,短期在中國To C 更有機會,但國外兩者都有機會。To C方面,AI 2.0 時代會和PC、移動互聯網時代一樣,第一個階段是生產力工具,包括信息獲取。第二個階段可能是娛樂、音樂、遊戲。第三個階段是搜索;再下一個階段可能會是電商、社交、短視頻、O2O的應用出現。
應用要能賺錢並且解決問題,所以第一波潮流會出現生產力工具,但越往後的難度越高——高用戶量的應用商業模式往往先堆積用戶,再找變現模式,所以應用成本一定要低,試錯難度大、所需要的投資也更多。
遞進模式不會有特別大的改變,To C應用會從生產力工具一步步走向短視頻類應用,在普及順序上會按照這六個階段進行。
但是,大模型領域做應用的推理成本太貴。最近零一萬物提出了TC-PMF概念(技術成本產品市場契合度),這個概念是指,當你考慮PMF時,還要把技術的需求、實現難度和成本考慮進去。做應用一定要考慮到剛纔這六個階段誰先誰後、什麼時候做、提早做。
此外,做應用還要綜合考慮技術、成本的性價比,大模型To C應用不像過去移動互聯網時代,產品經理一個人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。
To B應用上,大模型有可能在To B方向上帶來更大價值,而且比To C更快實現,但To B領域存在以下幾個挑戰。
首先是大公司、傳統公司不敢採取顛覆式技術,它們已經習慣每年增長5%的預算,做和去年一樣的事情。
第二個挑戰在中國比較嚴重,許多大公司沒有認識到軟件的價值,爲軟件付費意的意識有待提高。
現在有許多大模型公司在競標時越競越低,最後做一單賠一單,都沒有利潤。我們在AI 1.0時代曾見過這個現象,現在它在AI 2.0時代又重現了。這種心態導致部分大公司只願支付很低的價格,大模型公司也只能給出折中的方案,達到驚豔效果的寥寥無幾。零一萬物堅決做To C,不做賠錢的To B,而是做能賺錢的To B。
黃鐵軍:在To B、To C方面,大模型產業的最大場景會在哪些場景落地?
張亞勤:在應用和服務層面,先面向消費者(To C)再面向企業(To B)。To B的週期相對較長,而To C的應用產品則可以迅速推出,這與過去的PC互聯網和移動互聯網的發展路徑基本一致。
在基礎設施層,目前真正盈利的主要集中在To B領域,特別是在芯片、硬件、服務器等。像英偉達、AMD等芯片製造商,以及服務器、HBM存儲、InfiniBand和NVLink等相關技術的提供商,他們目前是盈利最多的。
AI路徑上,我在過去十年中一直強調三個關鍵領域:信息智能、物理智能(即具身智能)、生物智能。在具身智能階段,To B的應用可能會比To C更快落地。然而,在生物智能階段,情況可能相反,To C的應用可能會先於To B出現。儘管每個領域的具體情況可能有所不同,但總體來看,無論是To C還是To B,都將存在開源模型、商業閉源模型、基礎大模型,以及針對垂直行業模型和邊緣模型。
談具身智能與自動駕駛
黃鐵軍:在具身智能這麼多可能性裡面,到底是熱門的人形機器人會先有機會,還是已經有相當多積累的自動駕駛會有機會?
張亞勤:無人駕駛L4+是具身智能第一個、最大的應用,也會是第一次實現新圖靈測試的應用。
無人駕駛就是一個開車的特殊機器人,它在安全性已經比人類駕駛要高至少10倍,不管是Waymo還是百度阿波羅的商業運營。
儘管安全性很好,當前無人駕駛仍存在一些挑戰——開得安全但不夠老練,不夠“老司機”。無人駕駛要變成主流,要通過新圖靈測試的話,既是好司機,也是老司機。我認爲無人駕駛在明年會成爲第一個真正實現具身智能或者物理智能的AGI。
大模型的推出幫助無人駕駛解決了很多歷史問題,比如長尾問題、數據生成問題,百度已經積累了1億公里的駕駛數據,但數據仍然不夠,生成式人工智能可以生成更多數據。大模型的應用使得無人駕駛系統能夠實現端到端的智能化,也意味着無人駕駛會有更高的智能性,加速其在實際場景中的落地應用。
李開復:我同意亞勤的分析。創新工場投了6家無人駕駛公司,發展都不錯。現在無人駕駛面臨的一個巨大機會——終於可以落地了。在L2、L3階段,包含城市自動小巴等場景。到L4、L5階段,要無限制的開放場景,全球都面臨着挑戰。我在美國看到Waymo依然在往前推進。特斯拉FSD雖然不是完全的大模型,但也用了類似end to end(端到端)的概念。至於不用FSD方案能產生多少產業價值,希望我們投的這五六家公司和亞勤的前公司都能夠證明,中國能做得很好,也許這是很大的市場。
過去一年,我專注於零一萬物,沒有做自動駕駛研究,但我確定FSD會帶來新機會。把大模型的概念放到無人駕駛,是我非常期待能夠在下一階段看到的事。但這是需要巨大的投資,不見得適合初創公司。
具身智能很重要。但我也必須說,大模型非常適合虛擬世界,例如金融公司的後臺、客服等等場景,大模型可以迅速落地產生價值。如果你的需求是軟件,直接對接大模型就好了。一旦大模型接入物理世界就會面臨各種問題:安全、機器、機械、故障問題等,難度會大很多倍。
從創業者的角度來說,如果希望短期落地產生價值、能賺錢,做虛擬世界容易很多。具身智能可以很好地結合大模型多模態能力,而且一旦“具身”後就可以產生數據,形成數據飛輪閉環,有很大的想象空間。但短期要做好,難度很大。具身智能肯定要走很漫長的道路。
對人形機器人,我有一些特別的看法:絕大多數應用場景並不需要人形機器人,像是波士頓動力那種很酷的、跳來跳去的機器人,真的會有很多應用場景嗎?絕大多數場景幾個輪子不是更容易移動嗎?很多科學家和創業者都是從小熱愛科技,希望能複製一個人,這無可厚非。如果你很簡單地問VC,VC給出的恐怕是更務實更理性的判斷。
談AGI的定義、實現、安全
張亞勤:最近經常有人問我,AGI到底什麼時候可以實現?我比較樂觀,認爲15-20年內可以就實現,並通過新圖靈測試。
5年內,在信息智能領域,對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試。10年內,在物理智能領域,實現大模型在物理環境中的理解與操作能力,通過新圖靈測試。20年內,在生物智能領域,聚焦人體、腦機接口、生物體、製藥和生命科學,實現大模型與生物體連結的生物智能,通過圖靈測試。
要是三年前問我這個問題,我可能會說50年實現AGI,隨着大模型的發展,現在20年能實現。
黃鐵軍:AGI是要超越人類、有自我意識,有自己的目標、獨立做判斷。你們剛纔談的是這樣的AGI嗎?
李開復:AGI的定義是因人而異的。如果把AGI定義爲能做人所能做的一切事情,那麼我今天沒有辦法定義,因爲它還有太多未解之謎。只把人當作金標準,就像在問車什麼時候能跟人跑的一樣快。
只要Scaling Law繼續,只要AI一年比一年更聰明,它會多做比如5倍的事情,IQ會提升20個點。
我是做投資和創業的,我想看到的是巨大的商業價值。從這個角度來說,我們不會太糾結是不是能夠100%做到人類能做的事。如果世界上有一萬件事情,AI在9000件上做得比人好,有1000件人做得比較好,這樣也挺好的,要給人留一點空間。
張亞勤:我剛纔講的20年實現AGI,不包括擁有意識或情感。我對AGI的定義有三點,第一是要有巨大的能力,要能在大部分的任務要比人類強,而不是所有任務均超越人類。第二,它是必須要是通用的,過去每個任務都要用不同的模型,但是AGI是要有一個通用的大底座,當然可以有小的垂直模型,但它本身具有通用性。第三是不斷升級、學習、進化,就像人類一樣。我不認爲現在的Scaling Law,或者我們現在做的研究會讓AI產生意識,並且我也不認爲我們應該從事這方面的研究。我們還是要解決真正的問題,把人工智能作爲我們的工具、我們的延伸、我們的Agent,而不是另外一種物種。
黃鐵軍:超越人類的、有自我意識的AGI出來之後,人類會面臨着失控的巨大風險嗎?
李開復:存在,但概率不會很高。如果我們越來越依賴Reward model完全讓AI自己找路徑的話,發生的概率或許會增高。
當前大模型的訓練方法還不至於讓大家擔憂過度。技術是中性的,每個科技時代有技術帶來的“電車難題”,最後人類都用了有效的方法解決了。所以,我對此是持謹慎樂觀的態度,短期最擔憂是壞人用它去做壞事。中長期看,我仍然建議嘗試用“以子之矛攻子之盾”——用更好的技術解決技術帶來的挑戰,讓“AI for Good”,真正造福全人類。
張亞勤:隨着AI的能力不斷擴大,風險也在不斷擴大,考慮未來的風險很重要。我不擔心所謂的AGI會出現意識,會掌控人類。
如果現在不重視AI的治理,當AGI達到一定的能力並被大規模部署,那麼可能會有失控風險。目前AI仍存在可解釋性問題,未來機器人數量可能會比人多,當大模型被用到基礎物理設施、金融系統,包括國家安全,軍事系統等方面,就可能會有失控的風險。
我主張現在就要開始重視AI治理,但我對技術發永遠持樂觀態度,人類有兩種智慧,一種是發明技術的智慧,一種是引導技術走向的智慧。我們會達到平衡,但前提是現在要採取行動。