200PB數據:Mobileye的自動駕駛“秘笈”

通過強大的計算機視覺技術和自然語言模型,行業領先的Mobileye數據集成爲自動駕駛的“訓練”金礦。

Mobileye在CES 2022上宣佈,目前已採集了200PB的數據,這意味着Mobileye擁有了一個虛擬的駕駛數據寶庫。這些數據配合Mobileye一流的計算機視覺技術和強大的自然語言理解(NLU)模型使用,即使是罕見條件和場景下的“長尾”事件,仍可以在幾秒鐘內輸出數千個結果。而這有助於自動駕駛汽車和一流的計算機視覺系統處理邊緣情況,從而讓自動駕駛汽車實現超高的平均故障間隔時間(MTBF)。

Mobileye總裁兼首席執行官Amnon Shashua教授表示:“數據和處理數據的基礎設施是爲自動駕駛技術實現帶來了複雜性。Mobileye花了25年時間一直在收集並分析我們認爲是業界領先的,包含了現實環境和模擬駕駛體驗的數據庫,通過實現強大的自動駕駛解決方案脫穎而出,這些解決方案能夠實現超高的平均故障間隔時間。”

Mobileye擁有全球公認龐大的汽車數據集,包含了過去25年中超過200 PB的真實環境駕駛視頻素材,共1600萬個1分鐘視頻片段。

Mobileye數據集擁有超過200PB的真實環境駕駛視頻素材

對自動駕駛所需的強大計算機視覺引擎而言,大規模數據標註是核心。Mobileye擁有豐富且相關的數據集,由2500多名專業標註人員手動標註或自動標註。該計算引擎依靠雲服務器中的50萬個峰值CPU內核,每月處理5000萬個數據集——相當於每月處理由50萬小時的駕駛素材所生成的100 PB數據。

數據的價值在於能夠被解讀的同時並投入使用,這需要對自然語言的深入理解以及先進的計算機視覺算法,而這一直是Mobileye的優勢。

每個自動駕駛公司都面臨“長尾”問題,即自動駕駛汽車會遇到從未見過或經歷過的情況。這些長尾問題包含了龐大的數據集,但許多企業不具備高效理解這些數據集所需的工具。Mobileye先進的計算機視覺技術與強大的自然語言理解模型配合使用,能在幾秒鐘內查詢長尾數據集並返回數千個結果。隨後,Mobileye可以使用這些結果來訓練計算機視覺系統並使其更加強大。Mobileye的方法大大加快了開發週期。

Mobileye團隊使用內部搜索引擎數據庫,其中包含數百萬張圖片、視頻片段和場景。其內容覆蓋面極廣,從“被雪覆蓋的拖拉機”一直到“夕陽下的交通信號燈”,所有這些都由 Mobileye採集並饋入其算法(參見樣本圖像)。

Mobileye數據集包含數百萬張圖片、視頻片段和場景

通過業內最高質量的數據和專業人才,Mobileye的駕駛政策可以確保做出合理、明智的決策,這種方法消除了人工智能決策的不確定性,並在統計上實現了超高的平均故障間隔時間。同時,數據集加快了開發過程,讓自動駕駛技術“挽救生命”的承諾可以更快地成爲現實。