Waymo 借谷歌 Gemini 打造神奇自動駕駛出租車
Waymo 長久以來一直宣揚其與谷歌 DeepMind 的關係以及谷歌長達數十年的人工智能研究成果,並將此當作在自動駕駛領域相較競爭對手的戰略優勢。現在,這家歸屬於 Alphabet 的公司又更進了一步,基於谷歌的多模態大語言模型(MLLM)Gemini 爲其自動駕駛出租車開發了一種新的訓練模型。
Waymo 今天發佈了一篇新的研究論文,介紹了一種“用於自動駕駛的端到端多模態模型”,也稱爲 EMMA。這種新的端到端訓練模型處理傳感器數據以生成“自動駕駛汽車的未來軌跡”,幫助 Waymo 的無人駕駛汽車決定去向何處以及如何躲避障礙物。
但更重要的是,這是自動駕駛領域的領導者有意在其運營中使用 MLLM 的首批跡象中的一個。這也表明這些 LLM 或許能夠擺脫當下作爲聊天機器人、電子郵件組織者和圖像生成器的用途,並在道路上的全新環境中得到應用。在其研究論文中,Waymo 提議“開發一種將 MLLM 作爲一等公民的自動駕駛系統。”
端到端的多模態自動駕駛模型,簡稱 EMMA
該論文從歷史角度概述了自動駕駛系統是怎樣爲各種功能開發特定“模塊”的。這種方法多年來已被證明是有用的,但由於“模塊之間的累積誤差和有限的模塊間通信”,在規模擴展方面存在問題。此外,這些模塊可能難以應對“新環境”,因爲它們本質上是“預先定義的”,這可能使其難以適應。
Waymo 表示,像 Gemini 這樣的 MLLM 爲其中一些挑戰提供了一個有趣的解決方案,原因有二:聊天屬於一個“通才”,它是在從互聯網抓取的大量數據集中接受訓練的,“提供了豐富的‘世界知識’,這是常見駕駛日誌所未包含的”;並且它們通過像“思維鏈推理”這樣的技術展示了“卓越”的推理能力,這種技術通過把複雜任務分解成一系列邏輯步驟來模仿人類推理。
Waymo 把 EMMA 開發出來,作爲幫助其自動駕駛出租車在複雜環境中導航的工具。
該公司指出了幾種情形,在這些情形中,該模型幫助其無人駕駛汽車找到了正確的路線,其中包括在路上遇到各種動物或者施工。
其他公司,像特斯拉,已經大量談及爲其自動駕駛汽車開發端到端模型的事。 埃隆·馬斯克聲稱 其最新版本的全自動駕駛系統(12.5.5)使用了一個“端到端神經網絡”的人工智能系統,將攝像頭圖像轉化爲駕駛決策。
這清楚地表明,在道路上部署真正的無人駕駛汽車方面比特斯拉領先的 Waymo,也有興趣追求端到端系統。該公司表示,其 EMMA 模型擅長於軌跡預測、物體檢測和道路圖理解方面。
“這暗示了未來研究的一條有前景的途徑,在這條途徑中,更多的核心自動駕駛任務能夠在類似的、規模擴大的架構中相結合,”該公司在今天的一篇博客文章中表示。
但 EMMA 也有其侷限性,Waymo 承認在該模型投入實踐之前還需要進行未來的研究。例如,EMMA 無法整合來自激光雷達或雷達的 3D 傳感器輸入,Waymo 表示這在計算上成本很高。並且它一次只能處理較少數量的圖像幀。
在研究論文中,使用 MLLMs 訓練自動駕駛出租車還存在未提及的風險。像 Gemini 這樣的聊天機器人經常會 產生幻覺 或者 在像讀時鐘或數物體這樣的簡單任務上失敗。當 Waymo 的自動駕駛汽車在繁忙道路上以每小時 40 英里的速度行駛時,其出錯的餘地非常小。在大規模部署這些模型之前,還需要進行更多的研究——Waymo 對此很清楚。
“我們期望我們的研究成果能夠激勵更多的研究,以減輕這些問題,”該公司的研究團隊寫道,“並且進一步促進自動駕駛模型架構的前沿技術發展。”