馬斯克新作!Grok-1.5V多模態模型震撼發佈:數字與物理世界完美融合

新智元報道

編輯:編輯部

【新智元導讀】馬斯克xAI的多模態模型Grok-1.5V橫空出世了!不僅多項基準測試超越GPT-4V,而且看懂梗圖寫Python代碼也都不在話下。並且,爲了評估模型對於真實世界的空間理解,xAI此次還推出了新基準RealWorldQA。

馬斯克的第一代多模態模型Grok-1.5V,終於來了!

Grok 1.5V,號稱是能連接數字世界和物理世界。

除了文本功能,它還能處理文檔、圖標、屏幕截圖和照片之類的各種視覺信息。

很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。

英偉達高級科學家Jim Fan發現了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。

如果使用語言進行「思維鏈」,幫助汽車分解複雜場景,用規則和反事實進行推理,解釋其決策,Grok-1.5V就能將像素->動作映射提升爲像素->語言->動作。

由此,特斯拉FSD V13就很有可能會理解語言Token!

特斯拉的優勢是,具有高度成熟的數據管線,因此,就不難用高質量的人類解釋痕跡來標記大量邊緣案例,在多模態FSD推理上,微調Grok的表現就很有可能會遠勝於GPT-4V和Gemini。

你可能會說,以前Wayve的LINGO-1不是也有類似的想法麼?但別忘了,特斯拉正在旋轉的,是一個無與倫比的數據飛輪,規模遠超以前。

馬斯克也適時地出現在了留言區,進一步解釋道——

有兩種數據源可以無限擴展,合成數據和真實世界視頻。前者存在一個真僞的問題,而後者則不存在。

有網友表示,好傢伙,這聽起來是通往AGI最可行的路徑了!具有顯式語言推理的多模態模型,始終如一地推斷世界模型。

模型能力

在xAI的官網上,對於Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。

無論是多學科推理,還是文檔理解、科學圖表、表格、截圖和照片等多個領域,Grok-1.5V都和它們有的一拼。

尤其令人驚喜的,是它在理解物理世界時表現出的卓越能力。

在RealWorldQA基準測試中,沒有思維鏈提示、零樣本設置的情況下,用以下數據集對Grok進行評估,可以看到Grok的表現比同類模型更好。

下面7個具有代表性的例子,更說明了Grok 1.5V在不同場景中的良好表現。

1. 根據圖表編寫代碼

下圖給出了一個簡單的猜謎遊戲的流程圖,Grok可以根據流程圖具體內容,使用python代碼實現該流程。

用戶:

Grok:

2. 計算卡路里

根據食品的營養配料表,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計算出,用戶給出5片該食品的卡路里總數是100。

用戶:

Grok:

3. 從繪畫到睡前故事

Grok可以根據畫作的內容,講述一個簡短的睡前故事。

比如下面這個隨筆塗鴉:

用戶:

Grok:

4. 看懂梗圖

下面這張梗圖,左邊是初創公司,右邊是大公司,講的是什麼意思呢?

小編第一眼是沒看懂。看完Grok的解釋,才恍然大悟。

用戶:

Grok:

5. 將表格轉換爲CSV

Grok可以將表格內容轉換成CSV格式。

用戶:

Grok:

6. 地板上的腐爛木頭,都能給出建議

地板上的木材腐爛了怎麼辦?

照片拍給Grok,它可以幫我們判斷腐爛情況,還能給出合理的處理建議。

用戶:

Grok:

7. 解決編碼問題

編碼問題,Grok-1.5V也是不在話下。

用戶:

Grok:

對現實世界的理解

開發有用的現實世界AI助手,提高模型對物理世界的理解是至關重要的。

爲了實現這一目標,研究團隊還推出了一個新的基準——RealWorldQA。

該基準可以用於評估多模態模型對於基本現實世界空間的理解能力。

雖然當前基準中的許多示例對人類來說理解比較容易,但對於前沿模型來說還是具有一定的挑戰性。

最初發布的RealWorldQA包含700多張圖片,每張圖片都有一個問題和易於驗證的答案。

例如,如果我們問它:圖片中的披薩刀和剪刀哪個物體更大?

Grok給出的答案是:它們的大小差不多。

從當前車道可以去哪裡?A.左轉 B.直走 C.左轉直行 D.右轉

Grok會選A。

從轎車前方的攝像頭來看,是否有足夠的空間繞過前面的灰色轎車?

Grok給出的答案是:是。

從這個圖片來看,恐龍是朝向哪個方向?

Grok回答:東。

除了其他真實世界的圖像外,該數據集還包括從車輛上拍攝的匿名圖像。

研究團隊將該數據集進行了開源,並希望隨着多模態模型的改進而不斷擴展該數據集。

最後,xAI官網總結道,憑着提高多模態理解和生成能力,它們將逐漸逼近構建能夠理解宇宙的有益AGI。

而接下來幾個月裡,估計我們還會看見圖像、音頻、視頻等多模態上,這兩項能力的重大改進。

參考資料:

https://x.ai/blog/grok-1.5v

https://twitter.com/DrJimFan/status/1779558822543229221