多模態競技場對標90B Llama 3.2!Pixtral 12B技術報告全公開

新智元報道

編輯:alan

【新智元導讀】以開源極客之姿殺入江湖的Mistral AI,在9月份甩出了自家的首款多模態大模型Pixtral 12B,如今,報告之期已至,技術細節全公開。

作爲歐洲的OpenAI,Mistral最近壓力不小。

端側小模型端不出來,對比評測的結果又遭到質疑。

上個月震撼登場的自家首款多模態大模型Pixtral 12B,也疑似遇到了成績不如人的窘境。

不過世間紛擾,留待時間之中去見分曉。

畢竟Mistral AI當年也是以開源極客之姿殺入江湖的,以後的以後,圈內人總會想起有個一言不合就甩出磁力鏈的公司吧。

按照慣例,在9月份甩出多模態Pixtral 12B的開源鏈接之後,Mistral會在一段時間後放出技術報告。

我們來看一下Mistral家的第一個MMLM有什麼新花樣。

論文地址:https://arxiv.org/abs/2410.07073

開源代碼:https://github.com/mistralai

首先,許多開源模型一般有個問題,就是爲了多模態的性能而犧牲了本身的自然語言性能,之前英偉達的NVLM 1.0也談到了這點。

Pixtral本次也是成功避開了這個缺陷,單單比較文本模型的性能,也在同等尺寸的模型中居於前列。

另一點與大多數模型不同的是,Pixtral選擇從頭開始訓練了一個全新的視覺編碼器。

基於此,Pixtral 12B輸入圖片的分辨率和長寬比不受任何限制,並且在128K的上下文窗口範圍內,想放多少張圖片都行!

從論文的測試結果來看,Pixtral 12B明顯優於其他類似大小的開源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些評測中,表現比Meta家的多模態老大哥Llama-3.2 90B還要好。

最後,與開源模型一起,Mistral還貢獻了一個開源基準測試MM-MT-Bench,用於在實際場景中評估視覺語言模型。

技術細節

當前的多模態大模型基本上都是:模態編碼器 + 投影模塊 + 大語言模型主幹。

如果需要多模態輸出,後面還會對稱地拼接投影層和各種解碼器。

所以,在模型結構方面,我們可以分部分來看Pixtral都做了哪些工作。

模型結構

Pixtral 12B整體爲Transformer架構,在大規模交錯圖像和文本文檔上進行了預訓練,具備多輪、多圖像對話的能力。

多模態解碼器

Pixtral的大語言模型主幹選擇了自家的Mistral Nemo 12B,decoder-only架構。

內部維度14336,層數40,32個頭分爲4組(GQA),詞表大小131072。

視覺編碼器

視覺編碼器部分是隨Pixtral 12B一起新鮮出爐的PixtralViT。

顧名思義,採用ViT架構打底,4億參數量。同時爲了能夠處理各種分辨率和縱橫比的圖像,作者對標準架構進行了四項關鍵更改:

RoPE-2D的變換可以表示爲:

這樣的設計可以自然地以原始縱橫比適應高分辨率和低分辨率圖像,從而顯著提高多模態任務的性能。

相比之下,傳統的編碼器一般就是針對ImageNet訓練的,分辨率爲224 × 224或336 × 336。

當應用到多模態語言模型(需要靈活執行標準分類任務,或者光學字符識別等任務)時,通常會將圖像分解成更小的方塊,然後再獨立地將圖塊饋送到視覺編碼器。

完整架構

Pixtral的視覺編碼器通過兩層全連接網絡連接到多模態解碼器(LLM)。MLP層維度不變,用於將視覺編碼器的輸出轉換爲解碼器所需的輸入嵌入大小,激活函數爲GeLU。

多模態解碼器對圖像token的處理方式與文本token相同,包括所有token的RoPE-1D位置編碼。解碼器使用了因果自注意力機制,能夠平滑地促進多圖像對話等能力。

MM-MT-Bench

大多數現有的多模態基準測試,衡量的是模型在給定輸入圖像的情況下執行某種形式的多項選擇問答的能力。

這種能力有用,但還不夠。

大模型說到底是給人用的,比如有多模態能力的小助手或者聊天機器人。

在純文本領域,MT-Bench可以很好衡量這種性能,它採用獨立LLM裁判根據參考答案對模型的輸出進行評分。

本文中,研究人員構建併發布了一個名爲多模態MT-Bench(MM-MT-Bench)的新基準測試,風格與純文本的MT-Bench類似,以評估指令調整的多模態模型的性能。

MM-MT-Bench總共包含92個對話(單回合對話69個,2回合對話18個,3回合對話4個,4回合對話1個),涵蓋了廣泛的實際使用案例,包括五類圖像:圖表、表格、PDF頁面 、示意圖和雜項。

爲了評估模型,研究人員在對話的所有輪次中並行查詢模型,爲過去的輪次提供參考答案作爲歷史記錄。裁判會獨立對每個回合進行評分,並提供整個對話歷史記錄。

評分依據正確性(提取的信息是否正確)和完整性(標準答案是否涵蓋了參考文獻中提出的所有要點)以1到10的等級爲對話進行評分。

MM-MT-Bench旨在模擬視覺語言模型的實際使用,用於提取、總結和推理圖像內容。

作者手動整理了圖像、提示和答案,並驗證了標籤編寫者的答案,確保所有提示都需要參考圖像輸入才能正確回答。

實驗測試結果表明,MM-MT-Bench的性能與LMSys Vision排行榜上的ELO排名高度相關。

實驗結果

在評估Pixtral和基線的過程中,作者發現多模態模型的評估協議沒有標準化,設置中的微小變化可能會極大地改變某些模型的性能(比如要求模型生成與參考答案完全匹配時,6.0和6就可能是不同的)。

爲了緩解這個問題,作者建議使用「Explicit」提示來明確指定參考答案所需的格式。

多模態性能

上表顯示,在多模態基準測試中,Pixtral的性能大大優於所有同尺寸的開源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等閉源模型。

值得注意的是,Pixtral在針對實際用例的MM-MT-Bench上的表現優於所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的開源模型,Qwen2-VL 72B和Llama-3.2 90B。

不過,由於「Explicit」提示的原因,一些開源模型的性能遠低於其報告的數字,這主要是由於模型沒有遵循答案格式說明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

爲了與這些模型進行透明的比較,下面使用更寬鬆的指標進一步評估。

語言性能

上表展示了在常見的純文本基準測試(使用常見的提示和評估協議)中,Pixtral 12B與同等大小開源模型的比較結果。Pixtral沒有爲了追求多模態功能而犧牲文本理解,可以作爲文本和視覺任務的通用模型。

參考資料:

https://arxiv.org/abs/2410.07073