地平線陳黎明:2025年自動駕駛將迎ChatGPT時刻

版權聲明:本文版權爲本站汽車所有,轉載請註明出處。

本站汽車7月12日報道    2024年7月11日-13日,由中國汽車工業協會主辦的第14屆中國汽車論壇在上海嘉定舉辦。本屆論壇以“引領新變革,共贏新未來”爲主題,旨在凝聚各方力量,形成發展共識,指引未來方向,推動汽車產業可持續高質量發展。

7月12日,地平線總裁陳黎明發表演講,他表示,2025年,自動駕駛將迎來ChatGPT時刻。什麼是ChatGPT時刻?“我們認爲它不光是整個的性能,最關鍵的是產品的體驗,是產品的可用性與好用性。目前我們看到當下的城區NOA大部分還處於可用階段,還沒有達到好用的階段。主要的問題還是在於:慫,通行效率低,體驗接管;莽,行爲不擬人,安全接管;急,快速開城導致可用性下降,通過率低。”

地平線認爲,真正“好用”的智駕2.0的系統,要提供擬人化的智駕體驗,不僅僅要保障物理安全,更重要的是心理安全。用戶亟需好用的城區NOA 2.0系統,需要實現通行效率、駕駛擬人、場景通過率的全面突破。再進一步,要打造用戶愛用的智駕系統3.0,普惠每個人。

智駕系統要做到“好用”,要解決“Scale Out”和“Scale Up”難題

而要解決“好用”的問題,陳黎明認爲,首先要解決自動駕駛的scale up和scale out的難題。所謂scale up,在特定、固定、受控的小ODD範圍內實現性能最優,能夠處理很多複雜的場景。但是在廣泛的場景應用裡面,系統性能卻無法保持,出現慫、魯莽這些行爲,使得整個自動駕駛的應用還受限於一些相對小的範圍,在大範圍上體驗不好。”我們追求的目標,是要實現在一個能夠scale up更好的上限,同時在所有的地方都能夠開。“

要解決這個問題核心的要素就是四個:算法、算力、數據、工程能力。算法是決定了整個系統的性能的上限,然後算力和數據是決定了技術迭代速度。工程能力決定了整個量產化的規模和用戶的體驗。

算法上,有基於規則的和數據驅動的兩種開發範式,也是業內常說的軟件1.0和軟件2.0。軟件1.0基於大量人工規則,系統上限低,下限可控;軟件2.0,數據驅動的端到端系統,實現信息無損傳遞,系統上限高,而下限不可控。從中,地平線發現當前技術迭代的“蹺蹺板效應”,無論是rule-based,還是數據驅動的端到端系統,單一都無法全面提升系統能力,不得不在系統上限的提升和系統下限的保障二者之間做取捨。

也因此,地平線採用端到端與交互博弈,以解決“Scale Out”和“Scale Up”的難題。在感知端,地平線採用“三網合一”端到端,能夠把傳感器信息、包括地圖、導航信息都作爲一個輸入源輸入到一個模型中進行訓練推理。同時,基於感知端到端的優勢,不僅可以輸出動靜態目標信息,還能輸出高維特徵級信息,實現信息的無損傳遞,從而提升感知端的系統上限,帶來對於世界的認知能力和系統性能的全面提升。接着無損信息輸入到下游的規控,規控裡面有基於神經網絡的模塊,也有少量基於規則的部分做安全兜底,既能提升系統上限,也能確保系統下限。整個系統基於動靜態推理與數據訓練,實現場景認知與理解,提升場景泛化能力,從而實現全域可開。

地平線2016年提出的“智能計算的新摩爾定律”,爲智能芯片設計與性能提升指明方向

地平線很早就意識到,如果能夠把軟件通過硬件實現,能夠讓系統性能大大提升,從而能夠讓整體的系統成本大幅降低。所以之前提出了智能計算的新摩爾定律。

“新摩爾定律”的公式也很簡單,是一個簡單的乘法。把單位成本下的計算性能作爲目標,把這個目標分解成三個因子:

1.第一個因子就是大家耳熟能詳的TOPS per dollar,花每塊錢能買多少算力,這是經典的理論峰值計算效率,通常來講要靠兩件事情來做到,第一個就是摩爾定律,第二就是創新型的硬件架構設計

2.第二個指標是叫Utilization rate(有效利用率),有了計算資源,怎麼樣充分利用?涉及到編譯器、Runtime、中間件、操作系統的優化,軟硬件協同,充分提升計算利用率

3.算法效率。每TOPS算力上能實現的算法效率。

BPU歷經三代迭代,隨着自動駕駛技術演進而進化

基於對算法趨勢與應用場景的前瞻判斷,地平線BPU爲行業領先的主流算法設計,最大化能效、算法性能、靈活性。

· 伯努利架構實現從浮點到定點計算的演進,面向ADAS場景,實現高性能低功耗的感知計算;

· 貝葉斯架構實現從感知到預測的支持,面向高速NOA,實現感知到預測的高效計算;

· 納什架構實現從感知、預測到決策的支持,面向全場景NOA,高效支持交互式博弈。

從最新一代納什回顧第一代BPU架構伯努利,在過去六年的時間裡面,BPU整個計算性能提升了246倍,對於Transformer提升的性能超過了27倍。

在同一個時期如果對比摩爾定律18個月提升一倍的情況,它六年時間一共提升了16倍,實際上是通過軟件和硬件的優化,遠超摩爾定律提升的速度。

首先第一,要讓駕駛的行爲Human-like(擬人化),這個技術典型就是通過端到端,深度學習人類駕駛行爲。

進一步要推動自動駕駛不僅僅在簡單的case裡面能絲滑地處理問題,它更要能在複雜的case裡面,通過自己的思考去舉一反三地處理極限場景,應對客觀世界的複雜性。這就能進一步推動整個智能駕駛從擬人化到anytime、anywhere,就是“每刻”“每程”。這需要交互博弈技術,更復雜的一種決策行爲。

另外,到達“愛用”,整個系統必須成本可控,讓每個人都可以享受到。地平線提供的解法就是要通過軟件、硬件的聯合優化,讓整個系統成本不斷降低,這就是地平線一直在做的BPU計算架構。

Horizon SuperDrive™️—— 全場景智駕解決方案樣板間

地平線希望在軟件、算法研究還有先進的芯片基礎上打造一個“樣板間”,用先進技術打造“優雅從容”的擬人化系統,實現全場景無差別的高階智駕。

目前,地平線是首家且每年均爲最大的提供前裝量產ADAS和AD解決方案的中國公司,前十大中國OEM均爲地平線的合作伙伴,已累計500萬片芯片出貨,並累計斬獲230餘個量產定點車型,超過110款車型實現了量產,行駛了百億公里里程。

以下是現場演講實錄:

尊敬的各位嘉賓、各位業界同仁,大家上午好!我是地平線陳黎明,今天要給大家彙報的題目是:產研向高而行,解鎖高階智駕新思路。

首先我們來看一下,大家都知道現在正處在新能源汽車下半場,也就是我們講的高階自動駕駛和智能座艙。我們看到目前20萬以上的車NOA的配備率還在不斷的增加,從22年到23年,20到30萬之間的車NOA的裝配率增長了24個百分點,30萬以上的車NOA的裝配率增長了19個百分點。而且今年目前我們看到大概前十個高端車型當中有八款都配備了NOA,所以我們看到高階自動駕駛正在迎來增長的拐點。

另外我們再來看一下關於行業裡近期熱聊的端到端。大家都知道2022年初的時候openAI的ChatGPT在AlphaGo之後又帶來了很大的驚喜,充分展現了AI的能力和巨大的潛能,今年特斯拉推出了基於端到端大模型的FSD v12.3,在自動駕駛領域也給我們比較驚豔的亮相,讓我們看到了端到端大模型在自動駕駛應用上的潛能,並且開始落地。

我們認爲,2025年,自動駕駛將迎來ChatGPT 時刻。

什麼是ChatGPT時刻?我們認爲它不光是整個的性能,最關鍵的是產品的體驗,是產品的可用性與好用性。

目前我們看到當下的城區NOA大部分還處於可用階段,還沒有達到好用的階段。主要的問題還是在於比較“慫”,還有一個問題是比較魯莽,再有一個是通過率比較低。

我們都知道終端用戶需要一個更好用的智能駕駛系統。它應該是能夠帶來更加擬人的智駕感受。我們講的智能駕駛1.0“可用”,只是解決了物理安全的問題。“好用”不但要解決物理安全的問題,還要解決用戶心理安全的問題。所以在實現通行效率、擬人駕駛、場景通過率方面都要進行全面的突破。

當然除了“好用”之外,還要做到"愛用",需要進一步普及到每個用戶,使得每個人都可以用,就是我們講的高階自動駕駛的平權化。這些思考不僅僅是技術思維,更多的是產品思維、是用戶價值思維。以用戶價值爲先,驅動我們去解鎖高階智駕新思路。

要解決“好用”的問題,我們認爲首先要解決自動駕駛的scale up和scale out的難題。所謂scale up,在特定、固定、受控的小ODD範圍內實現性能最優,已經達到了很高的性能,能夠處理很多複雜的場景。但是在於廣泛的場景應用裡面,我們能夠看到性能的上限非常的低,就是剛纔我們講的慫、魯莽這些行爲。使得整個自動駕駛的應用還受限於一些相對小的範圍,在大範圍上體驗不好。

我們追求的目標是要實現在一個能夠scale up更好的上限,同時在所有的地方都能夠開。

要解決這個問題核心的要素就是四個:算法、算力、數據、工程能力。算法是決定了整個系統的性能的上限,然後算力和數據是決定了技術迭代速度。工程能力決定了整個量產化的規模和用戶的體驗。

我們看一下算法方面,目前兩大主要的開發範式:一個是基於Rule-based,我們講的是Conventional開發範式,Software 1.0。還有一個基於數據驅動的開發範式,業界叫做Software 2.0。兩個各有利弊,軟件1.0基於大量人工規則,系統上限低,下限可控;軟件2.0,數據驅動的端到端系統,實現信息無損傳遞,系統上限高,而下限不可控。所以這裡就出現了兩種開發範式和路徑的“翹翹板”,無論是rule-based,還是數據驅動的端到端系統,單一都無法全面提升系統能力,不得不在系統上限的提升和系統下限的保障二者之間做取捨。

對於自動駕駛來說,我們既要能夠有很好的技術體驗,同時又要非常安全,再加上能夠快速地去推廣應用,這是我們的既要又要且要。

從地平線來講,我們認爲採用一個端到端和交互博弈的解決方案,能夠比較好地解決scale out和scale up的難題。我們採用了“三網合一”的端到端大模型,在這個大模型裡面它能夠把傳感器的數據和地圖和導航信息輸入大模型進行訓練。在這個模型裡面它通過不丟失信息的情況下對周邊世界進行更好的感知,通過動靜態的推理還有數據的訓練,能夠產生出動靜態目標。除此之外還能夠輸出一個機器能讀懂的高維特徵級信息,給到下一個模塊,也就是交互博弈模塊。這個模塊有兩個部分組成:一個是神經網絡的模塊,再一個是基於Rule-based的模塊。神經網絡能夠提高整個系統上限,同時基於Rule-based的模塊可以做好安全兜底,確保系統下限。

通過“三網合一”端到端,再加上交互博弈架構和算法,能夠比較好的解決scale out和scale up。

地平線作爲一家軟件算法基因出身的公司,我們首先考慮問題還是從軟件的方面考慮怎麼解決自動駕駛的問題。在過去九年當中,地平線在創新技術方面也有很多的積累,在這裡給大家做幾個分享。

2022年地平線提出了Sparse4D的架構,它是行業比較領先的高性能,高效率,長時序、純稀疏融合感知架構,它通過長時序純稀疏還有端到端很好解決了之前或者現在用的BEV+Transformer架構裡面的感知範圍和精度以及與計算效率的矛盾,打造了一個比較好的端到端的感知基座。同時它在各方面的性能表現都遠好於其他的架構,特別是在nuScenes公開數據集排行榜第一。所以它是接棒“BEV+Transformer”的下一代架構。通過和BEVFormer的對比,可以看到在夜間城區密集人羣的精準感知、遠距離及時感知的場景下,Sparse4D的感知結果都更精準。

另外地平線學者在2022年底的時候發表了一篇自動駕駛大模型UniAD的文章,也是首次實現了整體框架下的端到端訓練。在9000多篇論文裡面獲得了去年計算機視覺和模式識別CVPR大會的最佳論文,這也是第一次自動駕駛領域的文章在CVPR年會上獲得最佳論文。

UniAD它首次將檢測、跟蹤、建圖、軌跡預測、佔據網格預測以及規劃整合到一個基於Transformer框架裡面的大模型裡面,實現感知的一體化,它相對於黑盒的我們講的端到端,它更可控、可解釋、可拓展,是一個比較好的架構。它在NuScenes數據集上獲得了SOTA (state of the art),評測結果最優。同時,我們這個算法也在業界作爲一個Benchmark,當下產業界的很多端到端都有受UniAD啓發開啓端到端的上車應用,學術與科研界也以UniAD作爲標杆去benchmark。

除此之外,同時地平線還採用了模仿強化混合學習技術,在這方面進行深度創新和積累,使得整個自動駕駛更擬人、更安全。

基於模仿的開環學習方式不能很好的解決長尾問題。交互式的規控學習採用混合強化學習方式,一方面通過模仿學習提高學習效率,另一方面通過閉環強化學習克服模仿學習在長尾等方面存在的缺陷,可以很好地解決長尾問題。這樣使得整個交互博弈當中能夠更好的進行跟周邊的交互,同時實現更好的擬人性,整個安全性和舒適度都得到了很大的提升。

那麼再好的算法如果沒有相應的芯片來承載,實際上是無法變成產品的。所以接下來我就介紹一下地平線在硬件、技術和產品方面的最新的一些結果。

這個是地平線2016年提出來一個“智能計算的新摩爾定律”。這個爲我們地平線也是爲其他行業的同仁提供了一個芯片設計和性能提升的方向,定義智能計算最優解。新摩爾定律的公式也很簡單,是一個簡單的乘法。就是說我把單位成本下的計算性能作爲目標,把這個目標分解成三個因子:

第一個因子就是大家耳熟能詳的TOPS per dollar,花每塊錢能買多少算力,這是經典的理論峰值計算效率,通常來講要靠兩件事情來做到,第一個就是摩爾定律,第二就是創新型的硬件架構設計;

第二個指標是叫Utilization rate(有效利用率),有了計算資源,怎麼樣充分利用?涉及到編譯器、Runtime等等軟件和硬件的協同優化,充分提升計算利用率;

第三是算法效率。每TOPS算力上能實現的算法效率,這取決於算法先進性來實現計算效率提升。

可以說,地平線“三項全能”——在硬件的架構、軟件中間層的優化、算法的創新上,都聚焦於軟硬協同,永遠以更低的成本去獲得更高的計算性能。

前面講了我們在算法上有很多的積累,這些積累就是指導我們去設計我們的硬件架構。

這體現在這幾個方面,一個是通過三級存儲架構,多脈動的立方加速引擎,還有多項數據流動等等來減少核內核間以及片間的數據的流動,提高它的使用率,同時降低對帶寬的佔用。另外通過虛擬化,數據變換引擎等等這些,來支持先進的算子和加速計算。同時通過所有這些優化,大大降低對計算的功耗,也使得我們整個芯片的性能能夠保持在一個非常好的水平。

軟硬結合,超越摩爾定律。我們再來看一下“新摩爾定律”帶來性能的提升,左邊是傳統的摩爾定律,在6年可以看到它的性能提升16倍。基於軟硬結合的“新摩爾定律”,我們BPU的計算性能對於傳統主流的CNN神經網絡它在6年裡面提升了246倍。對於現在的Transformer來講,在三年裡面提升了27倍。實際上我們通過軟件和硬件的優化,遠超摩爾定律提升的速度。

總結一下,我們用軟硬結合的技術實力推動智能駕駛從“可用”到“好用”最後到“愛用”。最主要的是通過端到端的技術,通過深度學習人類的駕駛行爲和擬人的體驗帶來心理安全,更加擬人、更像老司機。通過交互博弈,通過舉一反三處理極限的場景,更好的適應客觀世界的複雜性,能夠做到每時每刻。

再就是通過我們產品BPU,我們的芯片,提升它的性能,同時降低成本,來使得我們的高階自動駕駛更快的普及到我們每個駕駛員,使得每個人都可以用得起。

接下來我再把通過我們技術的積累,最新的產品給大家做一個介紹。今年四月份我們發佈了兩款產品,一個是硬件產品,一個是軟件產品。硬件產品就是征程6系列,相對於之前的三代產品征程2、征程3、征程5都是單芯片,征程6是一個家族,總共有6款芯片,主要覆蓋低中高階智能駕駛應用。所以在整個智能駕駛的應用當中,總有一款芯片適合我們的合作伙伴,它帶來的好處是基於同樣的開發環境、開發工具鏈能夠大大提升我們合作伙伴的開發效率,同時降低開發成本,能夠加速整個自動駕駛的應用落地。

再一個我們發佈了第二個產品,我們叫做Horizon SuperDrive,這個是全場景智能駕駛解決方案,我們希望基於我們的軟件、算法研究還有我們最新芯片的基礎上打造一個“樣板間”,充分展現在技術上限上,自動駕駛能夠解決什麼樣的問題,能夠怎麼樣更好的來解決我們目前遇到的很多困難的場景。通過我們三網合一端到端的技術,還有交互博弈,還有徵程6的芯片,我們追求的是像老司機一樣優雅和從容的駕駛。它會覆蓋全場景,包括城區、高速和泊車產品,實現全場景無差別的高階智駕。

下面看一下我們的SuperDrive在複雜場景裡面的表現,左上角是交通很擁堵的時候換道,是我們自車和其他汽車的博弈,我們的系統實在過不去會讓一下,如果有縫就會很自信的插進去。

第二個是路口的左轉交互博弈,大家可以看到車流量很大,這個場景化左邊的車實際上很多,這個時候要見縫插針能夠轉過去,沒有一定的技術的上限,沒有這種自信,你是沒有辦法在這個情況下進行左轉的。

右邊是一個城區,城市裡面的一個環島,這個裡面也是非常複雜的場景,它有反向的車、也有人,有一些場景你是沒有辦法第一時間看到,這個時候需要車跟路上的博弈,跟路邊的行人、車輛等等博弈。

左下是在擁堵路況下,精準搜索匯入空擋,高效安全博弈,成功匯入主路。

右下是禮讓行人,需要比較篤定能夠自信開的時候,它能夠去博弈,需要謙讓的時候必須要禮讓行人和其他的道路的使用者。

目前在過去的九年裡面,我們的產品也得到了主機廠的認可,目前我們跟100多個合作伙伴一起服務20多家主機廠。目前我們有差不多230多個量產開發項目,有110多款車型已經量產。目前我們已經出貨了500萬片芯片給客戶,也積累了百億公里的駕駛里程,爲客戶提供安全的駕駛體驗。

地平線是堅定的定位Tier2,我們還是希望攜手行業所有的夥伴一起,來推動自動駕駛向高而行,通過我們的硬件和算法賦能我們的合作伙伴,與我們的合作伙伴一起,共同讓自動駕駛可用、好用,使我們的用戶更愛用。

最後,地平線希望跟我們的合作伙伴一起。征程與共,開放共贏!

我的分享就到這裡,謝謝大家!