騰訊版Sora發佈即開源!130億參數,模型權重、推理代碼全開放
騰訊版Sora,發佈即開源!
130億參數,成爲目前參數量最大的開源視頻生成模型。模型權重、推理代碼、模型算法等全部上傳GitHub與Hugging Face,一點沒藏着。
實際效果如何呢?
不瞞你們說,我真的看見一隻大熊貓,在跳廣場舞、吃火鍋、打麻將,請看VCR:
到底是來自四川的貓!
目前該模型已上線騰訊元寶APP,用戶可在AI應用中的“AI視頻”板塊申請試用。
API同步開放測試,開發者可通過騰訊雲接入。
騰訊混元視頻生成主打四大特點:
那麼實際表現能否符合描述?下面結合實例一一拆解。
首先是衝浪題材,涉及到畫面大幅度運動,水的物理模擬等難點。
提示詞中還特別指定了攝像頭的運動,騰訊混元表現出流暢運鏡的能力,只是在“最後定格在…”這個要求上稍顯不足。
鏡子題材,考驗模型對光影的理解,以及鏡子內外主體運動是否能保持一致。
提示詞中的白牀單元素又加大了難度,涉及到的布料模擬,也符合物理規律。
不過人們想象中的幽靈一般沒有腳,AI似乎沒學到,又或者是跳舞涉及大量腿部動作,產生了衝突。
接下來是騰訊混元視頻生成主推的功能之一,在畫面主角保持不變的情況下自動切鏡頭,據瞭解是業界大部分模型所不具備的能力。
https://mp.weixin.qq.com/s/6_ciIeZBqkFMuizUmjKV4Q?token=1748535864&lang=zh_CN
再來一個綜合型的複雜提示詞,對主角外貌、動作、環境都有細緻描述,畫面中還出現其他人物,騰訊混元表現也不錯。
最後附上來自官方的寫prompt小tips:
怎麼樣,你學會了嗎?
更多騰訊混元生成的視頻,以及與Sora同提示詞PK,還可以看看量子位在內測階段的嘗試。
最大的開源視頻生成模型。
看完效果,再看看技術層面有哪些亮點。
首先從官方評估結果看,混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先。
然後從目前公開資料看,騰訊混元視頻生成模型還有三個亮點。
1、文本編碼器部分,已經適配多模態大模型
當下行業中多數視覺生成模型的文本編碼器,適配的主要是上一代語言模型,如OpenAI的CLIP和谷歌T5及各種變種。
騰訊在開源圖像生成模型Hunyuan-DiT中適配的是T5和CLIP的結合,這次更進一步,直接升級到了新一代多模態大語言模型(Multimodal Large Language Model)。
由此能夠獲得更強大的語義跟隨能力,體現在能夠更好地應對畫面中存在的多個主體,以及完成指令中更多的細節。
2、視覺編碼器部分,支持混合圖片/視頻訓練,提升壓縮重建性能
視頻生成模型中的視覺編碼器,在壓縮圖片/視頻數據,保留細節信息方面起着關鍵作用。
混元團隊自研了3D視覺編碼器支持混合圖片/視頻訓練,同時優化了編碼器訓練算法,顯著提升了編碼器在快速運行、紋理細節上的壓縮重建性能,使得視頻生成模型在細節表現上,特別是小人臉、高速鏡頭等場景有明顯提升。
3、從頭到尾用full attention(全注意力)的機制,沒有用時空模塊,提升畫面流暢度。
混元視頻生成模型採用統一的全注意力機制,使得每幀視頻的銜接更爲流暢,並能實現主體一致的多視角鏡頭切換。
與“分離的時空注意力機制”分別關注視頻中的空間特徵和時間特徵,相比之下,全注意力機制則更像一個純視頻模型,表現出更優越的效果。
更多細節,可以參見完整技術報告~
官網:https://aivideo.hunyuan.tencent.com
代碼:https://github.com/Tencent/HunyuanVideo
模型:https://huggingface.co/tencent/HunyuanVideo
技術報告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf