3D+文本大一統來了!清華和英偉達聯合開源LLaMA-Mesh,問答式3D生成

目前常見的有文生文、文生3D模型,但目前還沒有問答式混合模型。清華和英偉達這項研究探索瞭如何讓以文本預訓練的大型語言模型(LLM)具備生成3D網格的能力,實現“文本+3D”一體化的模型。 這麼做有兩個主要好處: 可以利用LLM從3D教程等文本來源中學到的空間知識; 支持對話式的3D生成和網格理解。這是首次證明LLM通過微調可以掌握複雜的空間知識,用“文本格式”完成3D網格生成,真正實現了文本和3D的融合。(鏈接在文章底部)

但一個關鍵問題是: 如何把3D網格的數據轉成LLM能理解的“離散的詞”? 爲了解決這個問題,提出了 LLaMA-Mesh,把3D網格的頂點座標和麪定義直接表示爲普通文本。 這種方法不用修改LLM的詞彙表,就能把3D網格數據輕鬆“喂”給模型。

01 技術原理

LLAMA-MESH 將文字和3D模型統一成一種格式,把3D模型中頂點座標和麪片定義的數值轉化成普通文字表示。模型通過同時學習文字和3D數據,直接進行端到端訓練。因此,我們只需要一個統一的模型,就能同時生成文字和3D模型!

和之前的自動迴歸3D生成方法類似,LLAMA-MESH模型在訓練中學會了模型的結構佈局,因此生成的拓撲看起來更像是專業藝術家的作品。

爲了測試生成的3D模型有多豐富多樣,用相同的文字描述多次生成模型,並觀察結果的變化。模型生成了許多獨特的3D模型,它們都符合描述要求。這說明LLAMA-MESH方法可以產出多樣化且富有創意的結果。這種多樣性對於需要多個設計選項或變體的場景來說尤爲重要。

採用了一種簡單的方式來表示3D網格:把網格的頂點座標和麪片信息用純文本形式保存。這樣可以直接和大型語言模型(LLMs)對接,不需要額外增加模型的詞彙量。

左邊是一個OBJ文件的片段,它用純文本記錄了頂點(v)和麪片(f)的定義;右邊是根據這個OBJ文件渲染出的3D模型。通俗來說,就是把3D模型的構造信息寫成類似代碼的文本,然後用這個文本生成3D形狀。

02 實際效果

以下視頻展示了網格生成過程的動畫。依次生成所有頂點,然後生成所有面。

歡迎交流~,帶你學習AI,瞭解AI