從西雅圖到上海,一場自動駕駛“奇蹟競賽”誕生

今年6月,一個新的自動駕駛競賽在上海和西雅圖進行了低調的亮相。

第二屆CVPR自動駕駛國際挑戰賽(Autonomous Grand Challenge)的組織人之一、上海人工智能實驗室青年科學家李弘揚告訴南方財經全媒體記者:這一由中國主辦的自動駕駛比賽,不僅規模空前,更在引領自動駕駛技術邁向一個以“端到端系統算法”爲核心的全新時代。

時間回到大約20年前,科技先驅者們已經熱衷於參加自動駕駛挑戰賽。

在2004年和2005年的莫哈韋(Mojave)沙漠、2007年距離洛杉磯兩小時車程的一處美國空軍退役基地,各種奇異的改裝車試驗着“無人駕駛”的瘋狂想法。

回到2024年,挑戰賽不再只是“瘋狂想法試驗場”。競賽有了驚人的專業度,而且正在塑造着自動駕駛的未來。

賽場來到中國上海。

2024年3月末至5月末,位於徐彙區濱江地帶的服務器很熱,它們在持續接收來自全球28個國家和地區483支隊伍、累計超過3000多次的算法作品提交,七個賽題等待它們爭奪排行榜的靠前排名。

奇蹟競賽(Miracle Match),通常是指體育比賽中出現非常罕見或令人難以置信的逆轉勝利,往往因爲其戲劇性和不可預測性而被人們津津樂道。有時候,它也單純指出現非凡結果的競賽。

在人工智能發展史上,競賽從學術界內部的理論比拼,逐漸發展爲學術和產業優美融合、多次誕生理論奇蹟和商業奇蹟的地方。從ImageNet到Darpa到Waymo,人工智能從業者們熱衷於參加競賽,擅長在競賽中產生奇蹟。

上海人工智能實驗室、“大語言模型”賽道創新獎獲得隊伍重慶郵電大學、作爲出題人之一的初創公司光輪智能,接受了南方財經全媒體記者採訪。他們介紹了學術人士設立挑戰賽、參加挑戰賽的全程故事,以及商業人士被學術競賽吸引的原因。

“賽場”

自動駕駛挑戰賽的賽場不一定設在路面上,也可能是在服務器中。無形的“算法”在微小的晶體管上疾馳。

從2024年3月末起在大約10個星期內,冷佳旭及團隊在中國計算機學會會士、重慶郵電大學校長高新波的指導下,參加了第二屆自動駕駛國際挑戰賽,在“大語言模型在自動駕駛中的應用”賽道中展開了算法研究。

冷佳旭和夥伴們需要解決這樣一些問題:

自動駕駛算法模型,是否能引入語言的推理能力?

從語言輸入到算法作出駕駛決策,這種算法能否打破“黑盒”狀態、提供更多行爲規劃的可解釋性?

輸入多元感知信號後,模型能否回答涉及駕駛的多方面問題?

如果從碩士生涯起算,冷佳旭從2012年起專注於計算機視覺研究。他曾見證過在人工智能領域,計算機視覺(Computer Vision,簡稱CV)進行了“搶跑”。

2012年5月,計算機圖形領域知名競賽“ImageNet大規模視覺識別挑戰賽(ILSVRC)”發佈第三屆比賽賽題。

9月,來自加拿大多倫多大學的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton提交的一份名爲AlexNet的算法,一舉獲得冠軍。

在此後的十年裡,AlexNet將“深度學習”、“神經網絡”推到了人工智能算法的潮流浪尖。同怕,CV成爲人工智能領域最炙手可熱的應用領域,無數人才、資金聚攏於此。

作爲首次參加自動駕駛競賽的選手,冷佳旭對人工智能在汽車駕駛方向的應用抱有夢想。

“在我的學生時代,CV讓安防、醫療、交通等場景發生了翻天覆地的智能化改變,如今,汽車駕駛這一高難度應用領域可能會因爲人工智能的介入走向全自動化。”冷佳旭告訴南方財經全媒體記者。

大語言模型在2024年獲得了空前的市場關注,但目前仍在尋找具體的落地場景。

在參加第二屆自動駕駛國際挑戰賽的全部483支隊伍中,152支(相當於31.46%)參賽隊伍在7個賽題中選擇了這一個,選手所屬高校包括英國劍橋大學、德國圖賓根大學、瑞士洛桑聯邦理工大學等世界名校,所屬企業包括英偉達、AMD、騰訊、美團、滴滴出行等全球科技龍頭。

冷佳旭團隊中的董洋、樑瀚升、翟明亮、李成、夏孟、劉星麟、莫夢竟成大多爲重慶郵電大學的在校博士生或碩士生,出生於1995年左右。他們的學科方向不盡相同,有些人做的是“目標檢測”,但自動駕駛需要混合學科人才。

學生們很快發現參加競賽和平時“發paper(論文)”不同。在一些公開數據集上和封閉環境下做算法研究,更多是理論性的發現,但挑戰賽拋出的是實際應用問題,同時提供了平時難以接觸的算力和數據。

長安汽車是重慶郵電大學此次競賽的合作伙伴。他們向冷佳旭團隊提供了部分自動駕駛數據用於微調(fine tuning),還有8至16張英偉達A800顯卡。長安汽車近年對智能駕駛頗爲重視,前百度智能駕駛事業羣組自動駕駛事業部總經理、L4卡車公司千掛科技CEO陶吉於2023年末加入長安汽車,擔任智能駕駛相關業務負責人。

大型車企可以通過量產車的“影子模式”收集大量數據,有資質的算法方案商也可以通過測試車隊進行採集,但獲得量產車和採集資質均非常難得,令大多數實體無法獲得閉環數據。

但自動駕駛競賽帶來了難以想象的“產、學、研”融合機會。“挑戰賽同時吸引了行業裡的各種羣體參與,甚至具體公司也可以在比賽中拋出在商業化過程中面臨的各種問題,吸引學術界集思廣益,也許有些學術方案就會被公司採納。”冷佳旭告訴南方財經全媒體記者。

在自動駕駛市場,“馬太效應”發揮着不可抗拒的威力,龍頭公司的技術方案往往具有絕對的市場佔有率,引發大批同行公司追隨方案。換言之,已經很少有公司願意潛心創新研究,大家都選擇拷貝、模仿。

在大語言賽道上,市場還處於“試水”期。重慶郵電大學團隊最終將俯視圖(BEV鳥瞰圖)特徵與大語言模型對齊,將空間感知能力(四維圖譜)與大語言模型的推理相結合。

對於重郵的方案,李弘揚告訴南方財經全媒體記者,評委會認可其創新性。“國際賽事上榜方案大部分爲已有成熟技術,創新性不足,但挑戰賽需要激勵參賽隊伍。”評委會最終認爲,重郵的方案不僅提高了性能,且屬於創新方法,更應鼓勵他們進行更多前沿技術的探索和應用,因此授予他們“創新獎”。

其他參賽隊伍則從不同維度上提升了大語言模型在自動駕駛中的運用。“從最後的技術報告來看,有一團隊加入了深度估計的內容,強化了距離感知的內容,這也非常有意思。”冷佳旭稱。

關於大語言模型或多模態大模型在自動駕駛中的應用,冷佳旭還提出,未來需要合成數據、世界模型技術同步發展。他解釋,在訓練中需要大規模的語料庫輸入,對於自動駕駛而言,就需要自動駕駛數據。目前,參賽隊伍採用了公開數據集nuScence,這是由Motional公司開發的開源全感知裝置自動駕駛數據集,包含3D標註,具有1000個每條20秒的場景。“但這遠遠不夠,未來需要合成數據、世界模型等補充。”冷佳旭稱。

從參賽到辦賽

2022年摘得Waymo開放數據集挑戰賽純視覺3D檢測項目桂冠時,上海人工智能實驗室希望實現從參賽者到辦賽者的身份轉變。

實驗室坐落於徐彙區西岸國際人工智能中心,這是一個以年輕人爲主力的科技中心。

上海人工智能實驗室脫胎於浦江人工智能國家實驗室,其創始人是知名人工智能專家湯曉鷗,目前由清華大學電子工程系長聘教授周伯文擔任實驗室主任。

實驗室下設數個研究項目,分別屬於通用大模型、視覺智能、決策智能、通用視覺、數字內容平臺、擴展現實、人工智能數據、計算、治理、青少年教育、醫療多模態基礎模型、自動駕駛等12個具體的研究領域。“實驗室是一箇中立的研究機構,成果都是開源的,因此都以Open爲平臺英文名的首單詞。”12個項目之一、浦駕自動駕駛開放平臺研究員李陽告訴南方財經全媒體記者,因此該平臺的英文名是OpenDriveLab。

實驗室的架構和中科院類似,項目負責人屬於PI(Principal Investigator,即首席研究員)職級。OpenDriveLab的三個聯合PI分別是嚴駿馳、羅平、李弘揚,三人分別從上海交通大學、香港大學、香港中文大學獲得博士學位。

自動駕駛算法是一個商業化程度極高的研究領域,充斥着英特爾、特斯拉、Google等國際科技巨頭,中國自動駕駛起步稍慢,但進展勢頭也十分猛烈,這個賽道已經十分擁擠。

作爲一個新成立的中立研究機構,上海人工智能實驗室要在自動駕駛賽道上作出成績。2022年、2023年,實驗室和OpenDriveLab分別兩次在國際舞臺上展露頭角。

2022年,上海人工智能實驗室青年科學家王文海等人與南京大學組隊,參加了第三屆Waymo開放數據集挑戰賽。這是一個由美國自動駕駛公司Waymo自2020年以來每年舉行的競賽,由於其強大背景而吸引了全球頂尖人才的參與——Waymo最初是Google於2009年開啓的一項自動駕駛汽車計劃,後於2016年12月獨立出來成爲Alphabet公司(Google母公司)旗下子公司。

第三屆Waymo挑戰賽提出了運動預測、地圖柵格佔據和運動流預測、純視覺3D檢測以及3D語義分割等4個賽題。其中,純視覺3D檢測項目要求選手僅使用攝像頭輸入(Camera-only)信息,爲場景中的可見對象生成一組3D框。

王文海等人提出了BEVFormer++模型。這個模型將BEV和Transformer結構結合,相比benchmark(基線方法),獲得了超過60%的性能提升,也因此獲得了賽道冠軍。

獲獎的喜悅稍縱即逝,上海人工智能實驗室開始思考:何必要圍繞於Waymo的議題進行研究?

Waymo開放數據集挑戰賽實際上是Waymo公司的一項企業行爲。作爲公司的的主要工作之一,Waymo致力於自動駕駛數據集的構建。

2019年8月,Waymo公佈了一個開放數據集,利用這個數據集,全球各地的研究者可以從零開始打造自動駕駛算法模型,而無需花費金錢採集行駛數據。

這些數據越被頻繁使用,就越能體現價值。因此2020年,Waymo宣佈開展“開放數據集挑戰賽”。可以說,Waymo設置的賽題是爲了解決數據集的各種問題,並同時擴大其用戶基礎。

不過,自動駕駛技術日新月異。時至2024年,人們對數據集的標註方法、自動駕駛的算法架構等問題進行了革新性的思考。

2022年底,OpenDriveLab在研究中提出了一個創新的自動駕駛算法模型 UniAD (Unified Autonomous Driving)。這個成果具有一定的劃時代意義。

從技術路線看,此前量產的自動駕駛方案通常採用模塊化設計,也就是對感知、預測、規劃等不同任務設計不同的模塊,通過集成、拼裝形成完整的自動駕駛算法方案。

這其實不符合人類司機的駕駛思維。人類的感知、預測、規劃是一串一體化的行爲。

近年來,自動駕駛有一大行業設想,即使用最早由Google提出的Transformer架構,用神經網絡模型處理傳感器信號輸入到行爲控制輸出。UniAD正是基於這個思路的一次實踐。

李弘揚作爲通訊作者,將介紹UniAD的論文《Planning-oriented Autonomous Driving》投給了計算機視覺三大頂級會議之一CVPR(計算機視覺和圖形識別會議)。2023年6月,CVPR宣佈了從9000多篇投稿中選出的12篇最佳論文,這一篇位居其一。

這反映了自動駕駛學術界對“端到端”算法的認可,同時,產業界的革新也啓動了。2023年末,特斯拉將端到端自動駕駛方案FSD V12投入量產,越來越多自動駕駛方案開發商、主機廠也隨即投入這股熱潮,預計市場將在2025年左右見到量產的端到端方案上車。

回到自動駕駛競賽,“端到端”的研究將帶來算法架構、數據集生成方式的巨大變化。首先,模塊式的算法架構將打破邊界,朝着“信息輸入到決策輸出”一體化的方向改變;其次,訓練和測試需要更少corner case的場景,意味着以往用自動化甚至人工方式進行標註的數據集遠遠不夠使用要求,而“世界模型”、合成數據更被需要。

2024年2月9日是癸卯兔年最後一天、大年夜,李弘揚在當晚的朋友圈裡發了一張OpenDriveLab全員攀登珠穆朗瑪峰的合影,豪邁宣佈“2024繼續勇攀高峰”。

年後,第二屆國際挑戰賽開始籌備了。這個比賽要和帶着“Google光環”的Waymo同臺競技,但要更符合自動駕駛的未來。李弘揚認爲,讓比賽圍繞“端到端”,吸引行業就此展開技術研究,是最符合自動駕駛行業需求、也是對塑造行業未來發展方向最有意義的。

他稱,年後“團隊同學和合作夥伴猛烈準備了好幾周”,進行了Hugging Face部署,和外國人(CVPR官方比賽授權渠道)溝通,準備了數據、文檔、基線模型。

3月1日,第二屆國際挑戰賽競賽細則全面發佈,比賽正式啓動。七個議題覆蓋了“端到端”需要的五大技術方向,它們分別是:大語言模型在自動駕駛中的應用、世界模型、佔據柵格和運動估計、具身多模態三維視覺定位、無圖駕駛。此外,還有一個賽題是“端到端自動駕駛”,試驗多種對“端到端”提出的算法架構設想;另一賽題“CARLA自動駕駛挑戰”是基於CARLA開源仿真平臺,進行的道路有形測試。

競技

美國華盛頓州西雅圖市,是西海岸與舊金山、洛杉磯齊名的科技之城,這裡坐落着微軟、亞馬遜兩大科技巨頭的總部。電氣與電子工程師協會下屬電腦學會(IEEE Computer Society)和計算機視覺基金會(Computer Vision Foundation)決定將2024年CVPR放在西雅圖召開。

2024年6月17日,CVPR在西雅圖會議中心開幕,熱度超乎想象。

李陽告訴南方財經全媒體記者,曾經以嚴肅冷清爲基調的會議,現在吸引了超過12000名參會者。這也是計算機視覺從學術研究落地到自動駕駛、機器人、具身智能體等廣泛商業產品的結果,在12000名參會者中,高校、實驗室只佔一部分,大批創業者、投資人也涌向現場,迫不及待地圍觀“下一個圖靈獎”的成果。

在所有海報、研學會、工作坊活動中,“老牌”競賽、由Argo AI和Waymo發起的兩場挑戰賽之賽後總結,是關注度最高的活動之一。自從通用汽車旗下Argo AI在2022年10月倒閉後,Waymo接手了該公司舉辦的自動駕駛競賽,並將兩場比賽合併在同一場工作坊活動中。

2004年開始的DARPA競賽精神,在這兩場比賽身上得到了延續。從DARPA走出來的自動駕駛明星,衍生出了美國Waymo、Cruise、Argo AI、Aurora、Zoox等五大團隊,他們各自和Google、通用汽車、福特、大衆、Uber、豐田、亞馬遜等汽車和科技巨頭結合,奠定了自動駕駛行業的基礎。

2020年開始的Waymo開放數據集挑戰賽和2019年開始的Argoverse挑戰賽,繼續成爲自動駕駛創業的搖籃。除了谷歌、英偉達等人工智能巨頭,滴滴、地平線、圖森未來等中國團隊也在比賽中大放光彩。

在今年,“端到端”議題的熱門,令英國公司Wayve聯合創始人、CEO Alex Kendall成爲Waymo邀請的重要演講者之一。在2024年5月獲得來自英偉達、微軟和軟銀聯手的C輪10.5億美元融資後,Wayve“熱得發燙”。它給出的世界模型GAIA-1等模型,是目前對“端到端”最成功的實踐之一。

儘管如此,Alex Kendall還是在同日的上午前往Summit 442會議室,參加了第二屆自動駕駛國際挑戰賽賽後總結。除了OpenDriveLab,開放數據集nuScences項目開發負責人、荷蘭代爾夫特理工大學助理教授Holger Caesar也是工作坊組織者之一,多家大學、Wayve、英偉達也派員到場,支持OpenDriveLab的活動。

2009年畢業於北京大學物理學院的謝晨,目前是國際頂尖的仿真學家,此次在上海人工智能實驗室競賽“佔據柵格和運動估計”賽道中擔任出題人及數據供應商。惠普、清華大學等多家公司或高校也參與了聯合出題。

“以往國際自動駕駛比賽的基礎已經逐步過時,我們現在需要把人才聚集到最新技術周圍。”談及和Waymo等比賽的比較時,謝晨對南方財經全媒體記者說。

在“端到端”系統中,自動駕駛更加接近人類司機的“直覺開車”。

這意味着算法要在趨近真實世界的環境中進行訓練和測試。因此,人們需要比大語言模型更龐大的“世界模型”,需要在真實採樣數據基礎上進行無限泛化,需要將被傳感器捕捉的corner case(特殊情況)泛化成人們所能遇到的所有的開車緊急狀況。

這意味着人們需要在任何情況,無論白天還是黑夜、無論晴天還是雨天,都能使用自動駕駛功能,而不用畏懼攝像頭等傳感器的“失靈”,因此,人們需要擺脫對高清地圖的依賴,轉而向“無圖駕駛”發展。

這意味着人們需要解決算法方案的“黑盒”問題,讓決策有依據、可解釋,因此,需要一個大語言模型增加可對話性。

因此,自動駕駛提出了很多新問題,這也許意味着,行業競賽需要在新的思路下展開。

謝晨向南方財經全媒體記者坦言,過往中國的自動駕駛人才需要在國外規則中進行技術開發。以駕駛數據集爲例,海外數據的分佈通常以國外城市的路況作爲場景,例如舊金山、新加坡,這和中國的路況具有一些細微差別。作爲中國合成數據商,謝晨增加了中國路況的權重,增加了數據集的“多元性”,將這種數據集提供了競賽選手,以達到“令評測結果更加有效”的結果。

“中國自動駕駛已經有全球最好的產品了,爲什麼我們不去擴大它的影響力?”謝晨稱。

“端到端”系統還在繼續擴展影響力。國內外產業界對端到端智能體的相關研發已有廣泛佈局。在自動駕駛領域,國際領先公司已實現端到端技術大規模落地應用,國內頭部公司緊隨其後,均有端到端技術落地計劃。在機器人領域,國內外公司也均針對端到端技術有所佈局。

“我們希望能通過組織比賽,推動端到端技術書寫人工智能的下一個篇章。”李弘揚對南方財經全媒體記者稱。

回顧人工智能歷史,曾經也有學術的狂熱愛好者舉行挑戰賽,最終引導整個行業向前推進。2009年,斯坦福大學計算機科學系助理教授李飛飛圍繞其組建的圖形數據集ImageNet發起挑戰賽,號召全球人工智能研究者依託這個龐大的圖片數據集,找到識別圖片的最佳方法。殊不知,三年之後AlexNet就橫空出世,奠定了此後10年圖像學的基礎,產生了Geoffrey Hinton等圖靈獎獲得者。

也許,歷史正在見證新的奇蹟競賽誕生。