AGI-Eval團隊:AI視頻生成模型年度橫評,國產模型仍然領先!

說到2024年AI圈的熱門話題,當然不能錯過視頻生成模型了!

即使是在12月,國內外視頻模型的更新腳步依舊沒有放緩。其中以Sora、可靈AI爲代表。

12月9日,OpenAI正式推出視頻產品Sora。用戶可以創建任意長寬比例的分辨率高達1080p(最長 20 秒)的視頻,可接收文本、圖像和視頻輸入並生成新視頻作爲輸出。

12月19日,可靈AI宣佈基座模型再升級,視頻生成推出可靈1.6模型,文本響應度、畫面美感及運動合理性,均有明顯提升,畫面更穩定更生動,同時支持標準和高品質模式,特別是1.6模型的圖生視頻,內部評測比 1.5 模型整體效果提升195%。

視頻模型競爭激烈,評測榜單也變得尤爲重要。

AGI-Eval通過構建上百條評測數據和專家級人工評測團隊,對Sora 、及國產頭部視頻生成模型進行了更深度的專業評測。

主要結論有以下3個:

結論1

結論2

結論3

詳細的榜單排名如下,評測維度包括視頻-文本一致性 、視頻質量(含真實性、合理性) 、運動質量等,確保評測結果反饋模型真實水平。

注:以上數據爲示例,具體評分請參考AGI-Eval評測社區平臺的最新數據。

榜單數據經過歸一化處理,與原始分值有所區別,但排名一致。

AGI-Eval平臺鏈接:https://agi-eval.cn/mvp/listSummaryIndex

詳細評測對比:Sora VS 國內視頻生成模型

一起來看看詳細的測評結果。

從視頻生成的整體效果來看,Sora在視頻質量、創作自由度、風格支持等方面的表現更優,尤其是在動態場景下五官的呈現上更爲細緻。

示例對比

【示例1】:文本一致性

該prompt本身較爲複雜,同時存在多個實體、人物狀態表現,且需要模型進行正確的推理,考察的能力更加全面。

Sora-1080P

該維度打分:2分分析:要求生成的實體中,揹包缺失,麪包表現較差,丟失實體特徵;人物動作”拿起“不符合,無法判斷是否符合推理正確的物體。

可靈1.6

該維度打分:2.67分分析:要求生成的實體中,麪包缺失,”拿起“的動作有趨勢但表現較差,同樣無法判斷是否符合推理正確的物體。

Pixverse-V3

該維度打分:3.5分分析:要求生成的實體及人物動作“拿起”均滿足,也能達成正確的推理,理解需要拿的是麪包,但不符合鏡頭跟隨和人物動作“來到”,相對來說已經表現得不錯。

MiniMax-Video-01

該維度打分:3分分析:要求生成的實體中,麪包缺失,“拿起”動作不符合,但推理正確,理解需要拿的是麪包。

該prompt實體較簡單,但傾向於考察水流、熱氣、顏色漸變等細節,流暢的細節變化通常來說較爲困難。

Sora-1080P

該維度打分:2.67分分析:忽略prompt要求的重點,未體現出變色的過程。

可靈1.6

該維度打分:4分分析:變色過程不完全符合要求,但相對來說較好。

Pixverse-V3

該維度打分:3分分析:未體現正在加水,變色有體現,但不符合逐漸變白的要求。

MiniMax-Video-01

該維度打分:2.67分分析:同樣未體現出變色的過程,也無法看出是熱水。

【示例2】:物品生成穩定性(突然出現或消失)

該prompt重在考察運動細節及實體之間的交互,模型在“切口處涌出了草莓醬”上表現得各有差異。

Sora-1080P

該維度打分:2.5分分析:該視頻中果醬多次忽然出現和忽然消失,蛋糕忽然出現缺口,僅針對穩定性較差。

可靈1.6

該維度打分:3.5分

分析:能看到刀的動作導致蛋糕出現切口,果醬的出現比較突兀不合理。

Pixverse-V3

該維度打分:3.5分分析:果醬和刀的形態穩定,蛋糕的切口出現較爲突兀。

MiniMax-Video-01

該維度打分:3分分析:刀和蛋糕的形態較穩定,符合切開的狀態,但果醬忽然大量出現不合理。

【示例3】:實體畸形

Sora-1080P

該維度打分:2.67分分析:背景鳥羣出現明顯畸形及不合理滯空,背景行人有粘連及行走姿態明顯不合理,整體觀感上較爲明顯。

可靈1.6

該維度打分:4分分析:主體人物及建築物整體的形態均較好,部分背景人物出現輕微畸形,整體對觀感影響較小。

Pixverse-V3

該維度打分:3分分析:主體人物手指有輕微粘連形變,背景建築物發生形變,觀感上稍有不合理。

MiniMax-Video-01

該維度打分:3.5分分析:主體人物手指輕微形變,左側出現的背景人物面部有輕微扭曲,觀感上稍有不合理。

Sora-1080P

該維度打分:2.5分分析:人物有明顯的穿模,門發生的形變也較明顯,影響嚴重。

可靈1.6

該維度打分:3.5分分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。

Pixverse-V3

該維度打分:3分分析:人物手指形變持續存在且較嚴重,較影響視覺效果。

MiniMax-Video-01

該維度打分:3.5分分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。

【示例4】:鏡頭技巧

Sora-1080P

該維度打分:3分分析:拉鏡有所表現,但升鏡體現較差,視頻整體鏡頭表現較單一。

可靈1.6

該維度打分:4分分析:視頻能較好的體現升鏡、拉鏡,場景變化的過度比較自然,整體流暢。

Pixverse-V3

該維度打分:3.5分分析:升鏡體現較好,但拉鏡未明確表現,視頻整體場景轉化較流暢。

MiniMax-Video-01

該維度打分:3分分析:拉鏡有所表現,但升鏡體現較差,視頻整體效果較爲突兀。

是怎麼評測的?

針對基礎模型,AGI-Eval採用了不同的評測方法及不同的評測方式,包含人工主觀評測、模型打分(modeleval)、衆包評測三種方式,考察模型在不同版本下是否有能力下降、風格等影響導致榜單結果差異,反饋模型綜合能力。

人工評測

評測說明給定prompt的視頻,人工從視頻文本一致性、視頻質量、運動質量等維度綜合給被測視頻打1-5絕對值分,並標註出被測視頻的錯誤標籤;視頻採用多輪標註的方式,2人打分結果相同則爲該prompt結果,若2人打分diff則進入3標,最終3人平均爲被測視頻最終分數。

評測思路

視頻文本一致性:是否按照prompt的要求生成視頻,包括對物體、人物、場景、風格、運動細節等所有相關要素的描述是否完整遵循。

視頻質量

合理性:視頻在邏輯、結構、設計、運動軌跡等維度是否符合常規,即,是否符合物理規律。

真實性:視頻具有逼真效果,無明顯AI痕跡。

運動質量:視頻中的運動表現是否流暢、連貫、動態效果是否豐富。

評測集介紹

根據一致性、運動質量、畫面質量等關鍵性能指標,構建了包含500條中英文對照樣本的黑盒測試集,覆蓋了從動作生成到情緒生成多種複雜場景和能力項及應用場景;在構建中也結合到了物理常識和百科知識,評估生成視頻的真實感和邏輯性。

評測案例

任務類型:相互影響多實體生成

Prompt:一隻貓叫醒了正在睡覺的主人。模型答案:

評測分析:視頻綜合打分:3分一致性:4分,實體生成符合要求,但對於“叫醒”的動作過程體現不完整。視頻質量:3分,運動過程中人物肢體、貓面部都呈現出變形。運動質量:3分,運動基本連貫,最後貓爪收回動作不自然,機械感較明顯。

任務類型:實體&動作生成

Prompt:跳水運動員們正在熱身。模型答案:

評測分析:視頻綜合打分:1分一致性:1分,要求的實體及動作完全未體現。視頻質量:1分,視覺中心的主體畸形,場景下方也存在變形不連貫。運動質量:2分,下方憑空出現實體,運動連貫性、動態效果、運動幅度均差。

AGI-Eval評測平臺

鑑於傳統評測方式難以充分反映模型的真實水平,AGI-Eval創新性地提出了人機協作評測模式,探索建設高質量評測社區建設。

在這種模式下,參與者可以與最新的大模型共同完成任務,既有助於提高任務完成度又便於建立更加直觀的區分度。

基於前期的一些用戶實驗表明,通過這種方式不僅可以獲得更爲簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。

未來,隨着更多類似平臺的出現和發展,相信人機協作將成爲評測領域的一個重要發展方向。

人機社區鏈接:https://agi-eval.cn/llmArena/home

AGI-Eval 平臺基於真實數據迴流、能力項拆解等方式,自建萬量級私有數據,並經過多次質檢保證準確率。

黑盒100%私有化數據,可保證評測數據不可“穿越”。

從數據建設到模型評測,實現全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。

對於Chat模型,平臺官方榜單結合主觀、客觀評測結果,中英文權重分佈均衡。

客觀評測基於模型打分,可處理具有一定自由度問題,準確率95%+;主觀評測基於三人獨立標註,並記錄細分維度標籤結果,全面診斷模型問題。

想要申請文生視頻測評的朋友可以直接聯繫AGI-Eval團隊。

AGI-Eval團隊介紹

AGI-Eval是由上海交通大學、同濟大學、華東師範大學、DataWhale等高校和機構合作發佈的大模型評測社區,以“評測助力,讓AI成爲人類更好的夥伴”爲使命。平臺旨在打造公正、可信、科學、全面的評測生態,號召大衆共同投入到大模型評測工作,參與數據構建及豐富有趣的人機協作比賽,與大模型協同完成複雜任務,實現評測方案共建。

AGI-Eval多模態評測可承接全模態(any toany)模型評測(部分榜單待上線),歡迎各位模型廠商提報評測合作交流。

文生視頻測評申請方式

請使用單位郵箱,將測評研究目的、計劃,研究機構、申請者介紹和聯繫方式(手機或微信),發送到郵箱。郵箱:agieval17@gmail.com,標題是:AGI-Eval文生視頻測評申請