Stable Diffusion3.0 官方技術報告重點分析
文:城主
上週,AI繪畫領域一顆重磅炸彈突然降臨: Stability AI發佈了備受期待的Stable Diffusion 3.0(簡稱SD3)。消息一出,整個AI繪畫圈爲之轟動。一週後,官方放出了一篇詳盡的技術論文,闡述了SD3實現突破性進展的底層原理,但同時也引發了一連串疑問: SD3能否在RTX 4090顯卡上流暢運行? 對其他主流GPU的兼容性如何?
更重要的是,面對OpenAI的Sora等勁敵,這次Stability AI能否力挽狂瀾,重塑行業格局?
相比於這篇滿是複雜公式的論文。對普通讀者而言,Stability AI的論文概要無疑更具可讀性。這篇論文本質上是介紹Stable Diffusion 3背後的研究,但並未明確指導如何實現其所有功能。官方公佈了一些新方法,並分享了關於哪些訓練決策提高了模型性能,哪些沒能完全達到預期,以及哪些組合賦予了Stable Diffusion 3驚人的能力。
Stability AI信心滿滿地表示,在大規模人類主觀評測中,SD3在排版質量、對提示的理解和執行度上全面碾壓了DALL-E 3、MidJourney v6、Ideagram v1等頂級產品。這裡務必強調一下"提示",因爲它是AI繪畫的靈魂所在。MidJourney v6固然能生成讓人歎爲觀止的畫面,但稍微複雜抽象一點的提示,它就難以完全"照單全收"。造成這種局面的根本原因,是MidJourney v6過度迎合大衆的審美偏好。簡單來說,它只擅長畫人們愛看的那些東西。相比之下,Stable Diffusion的強項在於快速理解並忠實執行提示,並能靈活調整畫面的局部細節,而無需事後大動干戈地修修補補。
令人振奮的是,SD3祭出了全新的"多模態擴散Transformer"架構(MMDIT)。它採用獨立的權重來編碼圖像和文本特徵,大幅提升了文本理解和拼寫能力。這是文圖生成領域的一大突破。此外,SD3還爲排版單獨配備了編碼器和Transformer。它儼然將這個"小衆"領域做成了"極致"。
關於性能,從這張圖表可以看出,在視覺美感度、提示匹配度、排版質量等方面,SD3在人類偏好調查中均取得了全面勝利。作爲基準,它輕鬆碾壓了所有競品,穩坐C位。至於SDXL系列終究略遜一籌。所有的評判都是由人工完成的,究竟是誰掌握了AI繪畫的"金標準"?
真正讓人驚喜的是SD3的硬件兼容性。Stability AI重點測試了SD3在主流消費級顯卡上的表現。結果令人喜出望外:就算是那個"巨無霸"版本(模型參數高達80億),也能完整裝進24GB顯存的RTX 4090。以1000x1000分辨率、50步迭代爲例,生成一張圖片需約34秒。要知道,50步在SDXL時代已經是頂配。如果你是"平民玩家",也不用灰心。SD3有多個輕量化版本,參數量從8億到80億不等,總有一款適合你。
從幾個令人驚豔的樣例圖來看,SD3能根據簡單的文字提示,靈活地生成各種主題和風格迥異的圖像。這得益於它在主題理解和場景構建上的重大進步。比如讓一隻鱷梨站在講臺前授課,或是給一隻袋鼠戴上墨鏡,它都能完美呈現。從這些看似荒誕的創意中,我們依稀可見SD3驚人的想象力。它已經初步具備了從文本中提取高層語義,並靈活組合成畫面的能力。
官方在論文中指出,對於從文本到圖像的生成,SD3必須兼顧文本和圖像兩種模態。這正是他們將新架構命名爲MMDIT(多模態擴散Transformer)的原因所在。與前代Stable Diffusion一脈相承,SD3沿用了預訓練模型來提取文本和圖像的特徵表示。具體來說,它用上了三種不同的文本嵌入器、兩個CLIP模型和一個T5模型來對文本進行編碼,同時採用了增強版的VAE來對圖像進行編碼。說白了,這套流程就是爲了理解用戶可能想要什麼樣的文字內容,以及與之匹配的圖像,從而更好地理解提示的真正意圖。
最妙的是,得益於嶄新的架構,SD3可以在同一個輸入中同時接受文本嵌入和圖像嵌入,並一次性完成所有操作。如下圖所示,文本嵌入和圖像嵌入被送入同一個注意力模塊進行處理。在其內部,信息通過一種循環反饋的方式流動,這是許多模型的標準配置。經過彙總後,模型再輸出最終的生成結果。總的來說,這套流程是基於擴散Transformer,並在此基礎上構建出了SD3的架構。
考慮到文本和圖像在本質上的差異,SD3爲它們各自採用了獨立的權重。這相當於給每種模態配備了專屬的Transformer。它們在各自的特徵空間中運作,但又能通過注意力機制實現信息的交互,可謂"分工不分家"。正是這種機制,使得SD3能更全面地理解跨模態的聯繫,進而輸出更連貫的結果。這也是SD3力圖同時利用文圖兩種輸入,並在同一個注意力模塊中處理的原因所在,而不是採用串行的方式。這一設計與SDXL高度相似。
接下來看兩張驗證損失的曲線圖。它們直觀地展示了不同模型及其變體在訓練過程中的表現。理想情況下,隨着訓練的推進,驗證損失應該逐步降低。可以欣喜地看到,實際結果與預期相符。
Stability AI表示,通過這種融會貫通的設計,信息可以在圖像和文本之間自由流動,從而提升模型對生成內容的整體把握。此外,這種架構還可以輕鬆拓展至視頻等其他模態。儘管論文對此有所討論,但官方對技術細節依然諱莫如深。值得一提的是,與其他模型相比,SD3在保留原始提示意圖的同時,還能靈活地生成多個差異化的版本。
尤其欣賞Stability AI在即時提示跟隨上的創新。官方表示,SD3能夠在保證畫面多樣性的同時,還能緊扣主題,並對畫風有很大的控制力。以往,將主題表達與風格渲染割裂開來是件很頭疼的事。儘管有些玩家通過優化UI和複雜的參數設置,在一定程度上實現了這一點,但將其作爲模型的內在邏輯,無疑更有前瞻性。
以上是幾個例子,這一切僅憑一句簡單的文字提示就能實現,充分證明了SD3驚人的理解力和創造力。它能從簡單的提示中提煉出豐富的細節和主題。
論文中還提到了另一項創新,即通過重新加權(reweighting)噪聲來改進整流流(rectified flow)。這說明官方在模型訓練中對噪聲的處理上別有心得。簡單來說,通過採用整流流公式或RF,可以"拉直"模型的推理路徑,從而以更少的迭代步數實現採樣。換言之,這項技術不僅能降低訓練成本,還能幫助模型在推理時不偏離正軌,避免出現崩潰。
爲了驗證這一點,他們在60多個主流擴散模型上進行了測試,每次都採用了不同的數據集、評估指標和採樣器設置。結果表明,儘管現有的RF方法在少量迭代步數下表現優異,但隨着步數的增加,性能反而出現下降。相比之下,SD3的RF版本卻能持續提升性能。簡而言之,在同等計算資源下,SD3能實現更高的目標,極大地提高了性價比。
這是Stability AI的一記重拳,尤其是對Midjourney等直接競爭對手而言。坦白講,這更像是在向投資者傳遞一個信號:如果給我們投錢,我們創造價值的效率將更高。細看那些AI初創公司的開銷,GPU的採購和租賃往往是最大的一塊。就連Stability AI這樣的獨角獸,也難逃被算力"繳械"的命運。
另一個亮點在於,Stability AI成功地讓一個80億參數的"巨無霸"塞進了24GB顯存的RTX 4090。儘管這與驗證損失關係不大,但足以證明SD3在模型壓縮和推理優化上的造詣。事實上,他們展示的指標和驗證損失之間存在強相關性,而後者是評判模型整體性能的重要依據。因此,如果訓練更高效、猜測更準確,模型的性能就會更優秀。
此外,官方指出,SD3的擴展趨勢尚未見頂,不太可能遇到雲端服務中常見的瓶頸。換言之,通過架構創新,他們在計算性能上取得了重大突破。在可預見的未來,SD3還有進一步升級的空間。隨着算力的提升,我們有理由期待用更低的成本獲得更優的結果。
說到文本理解,這是Stability AI長期以來的一個重點,一以貫之地體現在其他實驗性模型中。在SD3中,他們做了一些有趣的取捨。爲了降低顯存佔用,他們砍掉了此前SDXL中使用的一個內存大戶——4.7億參數的T5編碼器。
有趣的是,藉助全新的架構,去掉T5並未明顯影響視覺效果,只是略微損失了一點文本依附度。從基準測試的結果來看,即便完全移除這一模塊,SD3的性能也基本無損。在保證畫質的前提下,這種權衡可謂相當高明。官方還展示了一個案例,給定同樣的雪貂提示,去掉T5前後的結果幾乎一樣。
這恐怕是Stability AI迄今爲止最硬核的一篇論文,行文晦澀,不太好啃。但作爲我們吃瓜讀者而言,只需要知道,Stability AI又拿出了一個含金量超高的的新繪畫模型就好了。開源是全世界AI愛好者的福音。
附:
雖然MidJourney一直非常強悍,但作爲本地可以運行且完全免費的Stable Diffusion,無疑纔是衆多專業級玩家的最愛。當然了,本地運行Stable Diffusion有一點點硬門檻。
如果讀者有興趣自己研究SD(畢竟強大的3.0馬上可以用上了)這裡順便和大家友情推薦圖靈出品的一本書,這是一本爲零基礎讀者量身打造的 Stable Diffusion “餵飯版”教程。讀完就可以上手操作,幫助你快速掌握新技能。
這本書本城也是推薦人之一,翻完全本,感想如推薦語:
“”本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。”
——城主,公衆號“Web3天空之城”主理人
如果你希望自己入門SD並在本機跑起來,不妨可以考慮。網絡視頻雖然多,但案頭一本可以隨時翻查的工具書還是不錯的。
作者介紹
關鍵幀,中科院博士,前阿里巴巴技術專家,公衆號“關鍵幀 Keyframe”主理人,長期從事互聯網內容領域基礎技術和業務研發及管理工作,熱愛系統性分享行業技術經驗並廣受粉絲好評,熱衷於探索 AIGC技術發展和業務落地,對 AIGC 業務前景有着獨特的洞察。
這本 Stable Diffusion 入門書覆蓋內容非常全面,文字通俗易懂,圖文並茂,是市面上不可多得的關於 Stable Diffusion 的實操大全,是平面設計工作者和業餘繪圖愛好者的好幫手。——易子立,南京大學副教授,圖像生成算法 DualGAN 第一作者
《零基礎玩轉 Stable Diffusion》是一把開啓 AI 繪畫世界大門的鑰匙。作者以實用爲核心,分步驟教你如何本地部署並運用 Stable Diffusion,使藝術創作更加自由和高效。本書不僅是藝術愛好者的新寵,也是設計師提升工作效率的利器。讓我們一起跟隨作者,探索 AI 繪畫的無限未來!——Reynold,公衆號“互聯網 er 的早讀課”主理人
本書從零開始,詳細介紹了 Stable Diffusion 的基本概念以及必須掌握的各種豐富設置參數,讀者如能按照本書一步步實踐,必能熟練掌握 Stable Diffusion 這一強大而免費的 AI 繪畫工具。——城主,公衆號“Web3天空之城”主理人
初次涉足 AI 繪畫領域,在尋求一本入門書時,一次偶然的機會讓我遇到了這本通俗易懂的 Stable Diffusion 教程。在看完幾頁後,我發現該書對零基礎同學非常友好,於是將它推薦給大家。本書介紹基礎概念和實際技巧,是你走進 AI 繪畫世界的不二之選!——賈文博,公衆號“壹念視覺”主理人
本書以簡明實用爲特色,“手把手”帶領讀者探索Stable Diffusion。書中的實用操作指南和豐富的示例可以讓大家快速掌握 AI繪畫技巧。對所有對AI繪畫感興趣的人來說,這是一份不容錯過的AI 繪畫入門指南,它將帶你進入一個充滿創意和驚喜的藝術世界!——馮振,《OpenCV 4 快速入門》作者,公衆號“小白學視覺“主理人
當藝術的奇妙之門向我們敞開,無論你是初涉繪畫的新手還是想要提高技能的繪畫愛好者,這本《零基礎玩轉 Stable Diffusion》都將成爲你探索 AI 繪畫創作世界的“靈魂伴侶”。—— @Jack Cui
隨着人工智能技術的普及,AI繪圖越來越受到人們的重視,特別是在繪圖設計領域中。本書從最基礎的軟件安裝開始,通過大量實操案例,全方位介紹免費AI繪圖工具Stable Diffusion的各種使用方法,幫助大家快速掌握AI繪圖,相信這本書會是廣大AI繪圖學習者的福音。——寧海濤,公衆號“DataCharm”主理人,暢銷書《科研論文配圖繪製指南——基於 Python作者
這是一本通俗易懂的 AI 繪畫實戰書,作者以簡明幹練的寫作方式,爲讀者揭開 AIGC 的一層層神秘面紗。通過閱讀本書,你將全面深刻地掌握 Stable Diffusion 繪圖軟件的部署和使用方法,書中的案例也將從多角度提升你的 AI 繪畫實戰能力。—— @致敬大神
從零開始探索AI 繪畫,必定要有一本好書伴身,相信每一位朋友都能通過這本書體會到 AI 世界的魅力 ——@娜烏斯嘉,AI繪畫博主