AI視頻大模型Vidu 1.5發佈:首發“多主體一致性”,能理解記憶上下文

智東西作者 ZeR0編輯 漠影

智東西11月13日報道,今日,國內視頻大模型創企生數科技發佈Vidu 1.5新版本。該版本全新上線“多圖參考”功能,突破了“一致性”難題,具備涵蓋人物、物體、環境等融合的多主體一致性能力。

通過上傳1~3張參考圖,Vidu 1.5可實現對單主體100%的精確控制,同時實現多主體交互控制、主體與場景融合控制,能夠無縫集成人物、道具和場景。

//oss.zhidx.com/uploads/2024/11/6734b04e6c3e3_6734b04e5cd78_6734b04e5cd50_案例5.mp4

在擁有處理更復雜任務能力的同時,Vidu 1.5延續了其業界領先的生成效率,不到30秒即可生成一段視頻。

今日上新的Vidu 1.5版本首次展現出上下文學習的能力,告別了單點微調,體現出視覺模型與語言模型一樣,在經過充分的訓練後,具備對上下文的深刻理解、記憶等能力。這也標誌着視覺模型進入全新的“上下文”時代。

直通車:www.vidu.studio

一、三大技術突破加成,攻克“多主體一致性”難題

視頻生成的一個難題是“一致性控制”問題,即在不同的生成視頻之間,模型往往難以確保主體的外觀、特徵、風格保持一致。尤其是在處理包含多個角色或物理的場景時,模型很難做到對多個主體同時控制,主體間的互動也難以保持自然連貫。

Vidu自上線以來就致力於解決“一致性”核心難題,起初具備“角色一致性”生成能力,確保了人物面部特徵的一致性;9月又在全球率先發布了“主體一致性”功能,實現角色全身形象一致。此次“多圖參考”進一步強化了Vidu在一致性方面的優勢。

據介紹,目前除了Vidu,其他視頻生成模型都無法有效控制面部一致性。少數模型通過大量相似圖片的輸入進行成本高昂的單點微調,才能實現基本的面部一致性。

Vidu直接提升了整體視頻模型的可控性,通過靈活的多元輸入實現了多角度、多主體、多元素的一致性生成。其技術突破具體體現在以下三個方面:

1、複雜主體的精準控制:無論是細節豐富的角色,還是複雜的物體,都能保證其在多個不同視角下的一致性。比如造型複雜的3D動畫風格角色,在各種刁鑽視角下,都能確保頭型、服飾等細節一致。

//oss.zhidx.com/uploads/2024/11/6734ae8f28fd2_6734ae8f258cd_6734ae8f258ab_案例1.mp4

2、人物面部特徵和動態表情的自然一致:在人物特寫畫面中,能確保人物面部特徵細節和表情變化自然流暢,不會出現面部僵硬或失真現象。

//oss.zhidx.com/uploads/2024/11/6734aec5930c1_6734aec58ef3c_6734aec58ef15_案例2.mp4

3、多主體一致性:Vidu支持上傳多個主體圖像,包括人物角色、道具物體、環境背景等,並在視頻生成中實現這些元素的交互。例如,用戶可以上傳主體、客體和環境的圖片,創建定製角色身穿特定服裝、在定製空間內自由動作的場景。Vidu還支持多個主體之間的互動,用戶可以上傳多個自定義角色,讓它們在指定空間內進行交互。此外,Vidu支持融合不同主體特徵,例如將角色A的正面與角色B的反面無縫融合,創造出全新的角色或物體。

//oss.zhidx.com/uploads/2024/11/6734af6782817_6734af677a48c_6734af677a463_案例3.mp4

據生數科技分享,以上這些能力目前業界其他視頻模型均無法實現。

二、省去“煉丹”環節,一款“LoRA終結器”

上述突破性的工作源自於Vidu 1.5背後基礎模型能力的全面提升,而非業界主流的LoRA微調方案,無需專門的數據採集、數據標註、微調訓練環節,一鍵直出高一致性視頻。

此前LoRA微調一直是業界解決一致性問題的主流方案。LoRA(Low-Rank Adaptation)方案,即在預訓練模型的基礎上,用特定主體的多段視頻進行微調,讓模型理解該主體的特徵,從而能生成該主體在不同角度、光線和場景下的形象,保證其在若干次不同生成時的一致性。

比如創作一隻卡通狗的形象,想生成連續一致的視頻畫面,但模型在預訓練過程中並沒有學習過該形象,所以需要拿卡通狗的多段視頻,讓模型進一步訓練,直到認識這隻卡通狗長什麼樣。

但通常LoRA需要20~100段的視頻,數據構造繁瑣,且需要一定的訓練時間,通常需要數個小時甚至更久的時間,成本是單次視頻生成的成百上千倍。

此外,LoRA微調模型容易產生過擬合,即在理解主體特徵的同時,也會遺忘大量原先的知識。這導致對於動態的表情或肢體動作的變化,很難做到有效控制,容易產生僵硬或不自然的效果。在複雜動作或大幅度變換時,微調模型也無法很好地捕捉細節,導致主體特徵不夠精準。

因此,LoRA主要適用於大多數簡單情形下的主體一致性需求,但對於高複雜的主體或問題場景,需要更多的微調數據和更復雜的模型微調策略。

而Vidu 1.5基於通用模型能力的提升,僅靠三張圖就實現高可控的穩定輸出,直接省去“煉丹”環節,堪稱是“ LoRA終結器”。

三、視覺模型進入“上下文時代”

要實現類似的多主體一致性生成任務,需要模型能夠同時理解“多圖的靈活輸入”,不僅是數量上的多圖,還要圖片不侷限於特定的特徵。

這與語言模型的“上下文學習”能力具有顯著的相似性。

在語言模型中,理解上下文不僅僅是處理單一的文本輸入信息,而是通過關聯前後的文本、識別語句之間的關係,生成連貫且符合情境的回答或內容。

同樣地,視頻生成或多圖生成任務中,模型需要能夠理解多個輸入圖像的準確含義和它們之間的關聯性,以及能夠根據這些信息生成一致、連貫且有邏輯的輸出。

秉承通用性的理念,Vidu有和大語言模型一致的設計哲學:

1、統一問題形式:大語言模型將所有問題統一爲(文本輸入,文本輸出),Vidu則將所有問題統一爲(視覺輸入,視覺輸出);

2、統一架構:大語言模型和Vidu均用單個Transformer統一建模變長的輸入和輸出;

3、壓縮即智能:大語言模型從文本數據的壓縮中獲取智能,Vidu從視頻數據的壓縮中獲取智能。

通過不斷擴展上下文長度,Vidu從1.0迭代到1.5後出現了智能涌現效應,模型能夠通過視覺上下文完成大量新任務的直接生成。從單輸入主體的文/圖生視頻,到多輸入參考信息,未來生數科技還將以更長、更豐富的上下文作爲輸入,進一步提升模型的能力表現。

結語:視覺模型將具備更強認知能力

當前的視覺模型儘管在文本生成視頻等方面取得顯著進展,但與語言模型在深層次智能上的突破相比,尚存在較大差距。

過往的視頻模型如果想實現諸如一致性生成的能力,需要針對每一個場景設計相應的模型進行微調,而無法像語言模型一樣,通過上下文學習基於少量的示例或提示快速適應新任務。

Vidu 1.5則展現了出色的上下文學習能力。這意味着視覺模型不僅具備了理解和想象的能力,還能夠在生成過程中進行記憶管理。

同時,更出色的一致性控制,使Vidu 1.5在創作細膩、逼真的角色時具有顯著優勢,也進一步降低了對生成視頻內容進行後期加工優化的負擔。