文生視頻大模型集體上線 商業化競爭加劇

本報記者 李昆昆 李正豪 北京報道

在近日的雲棲大會上,通義萬相發佈了自研AI視頻生成模型,首批上線文生視頻、圖生視頻功能。通義App端完全免費,用戶每天不限次使用。

在文生視頻功能中,輸入任意中英文多語言prompt(提示詞),就能生成一段高清、逼真的視頻。它能夠支持最長5秒視頻生成,每秒30幀,分辨率爲720P。更驚豔的是,它還能生成與畫面匹配的音效。

盤古智庫高級研究員江瀚接受《中國經營報》記者採訪時表示:“首先,阿里視頻生成大模型的技術路徑是全自研的視覺生成大模型,採用了業界領先的Diffusion+Transformer架構。其次,該模型已經在手機端App和PC端官網上線,支持5秒的視頻生成,每秒30幀,分辨率爲720P,並且能夠生成與畫面匹配的音效。進展方面,阿里已經成功實現了文生視頻和圖生視頻的功能,並且在試用中表現出了良好的畫面質量、語義理解和風格泛化能力。”

文生視頻模型集中爆發

今年9月,國產視頻生成大模型迎來了目前最重要的一輪爆發:8月31日,MiniMax正式發佈視頻模型video-01,拉開了“紅毯儀式”的序幕。9月19日,阿里雲CTO周靖人在雲棲大會上發佈全新視頻生成模型。同日,快手發佈可靈1.5模型,內部評測整體效果比可靈1.0模型提升了95%。9月23日,美圖公司宣佈美圖奇想大模型完成視頻生成能力的升級。9月24日,字節跳動旗下火山引擎發佈了PixelDance和Seaweed兩款視頻生成大模型。9月26日,美圖公司又向所有用戶開放了AI短片創作工具MOKI。9月30日,可靈又上線了“對口型”功能,支持對生成的人物上傳音頻內容,並宣佈正式全面開放API(應用程序接口),上線了AI創作社區“創意圈”。

阿里方面稱,作爲一款“最聽話”的Al生視頻模型,通義萬相具備複雜語義理解和概念組合生成能力,將文字創意精準呈現。

據瞭解,對於靈感匱乏的朋友,在文生視頻界面點擊“靈感擴寫”,可將簡單提示詞自動“擴寫”成忠於原意的長提示詞,大幅度提升生成效果。

圖生視頻功能裡,支持將任意圖片轉化爲動態視頻,按照上傳的圖像比例或預設比例進行生成,同時可以通過提示詞來控制視頻運動。

通易萬象的音畫同步功能,不但可以大幅提升影像品質,更可讓創作者免去搜尋配樂、修改音效等麻煩。現在,您只需在電腦上輸入文字或上傳圖片,“通易萬相”便可爲您提供“圖片+語音”一站式服務。

江瀚認爲,與其他視頻生成大模型相比,阿里視頻生成大模型的優勢在於:“首先,它更懂中國風和中文,能夠更好地理解和生成與中國文化和語言相關的視頻內容;其次,它在計算效率上具有優勢,通過逐步降噪來生成最終動畫,減少計算量並提高生成速度;最後,它支持多種場景應用,能夠爲電商、廣告創意、自媒體、影視/動畫製作等領域提供更多靈感來源。劣勢方面,與其他模型相比,可能還存在一些特定的技術侷限性和優化空間,需要持續的研發和改進。”

文生視頻的未來

隨着玩家的基本聚齊,視頻生成大模型的競爭開始進入到尋找規模化落地場景的階段。我們可以爲視頻生成大模型找到從C端到B端的豐富的應用場景,比如朋友圈內容、AI短劇、視頻廣告、口播內容、宣傳片、節目製作、電影后期……

對於視頻平臺而言,這些撐起內容創作生態基礎的個體創作者,是最重要的服務對象。更低的視頻創作門檻,更豐富多彩的靈感表達,意味着更爲繁榮的視頻內容生態。剪映、即夢AI、快影、YouTube、Instagram正在融入的視頻生成大模型能力,甚至美圖公司的MOKI,都會將服務這部分創作者作爲一個重點。

談及對阿里文生視頻大模型未來發展的看法,江瀚表示:“首先,我看好阿里視頻生成大模型的未來。其次,因爲阿里在人工智能領域具有深厚的技術積累,其自研的視覺生成大模型在技術上具備領先地位。同時,阿里在市場推廣和應用場景拓展方面也具有較強的能力,能夠爲用戶提供更好的使用體驗和服務。此外,隨着人工智能技術的不斷髮展和應用場景的不斷拓展,視頻生成大模型的市場需求也將不斷增加,爲阿里視頻生成大模型的發展提供了廣闊的空間和機遇。”

對於大模型創業公司而言,就像MiniMax創始人閆俊傑所說,人類每天消費的大部分內容都是圖文和視頻,文字的佔比並不高,具備輸出多模態內容能力的大模型能夠獲得更高的用戶覆蓋度和使用度。

對於擁有視頻業務和用戶積累的成熟企業而言,大模型可能意味着一個重新分配蛋糕的機會,也意味着深挖已有用戶潛力的可能,最不濟,對大模型的投入也能夠在一定程度上幫助企業降低被擠下牌桌的風險。

東吳證券在研報中認爲,AI滲透率提升的核心驅動力在於企業的降本增效訴求。根據東吳證券的測算,全AI模式下,電影、長劇、動畫片、短劇的製作成本分別爲 2.5萬、9.3萬、3.7萬、0.4萬元人民幣,相較於傳統模式成本降低幅度超95%;人機共創模式下,電影製作成本有望降低43%。

Runway與獅門影業的合作表明企業與視頻生成大模型結合的意願在提升。在這個合作中,Runway將使用獅門影業的電影目錄來訓練自定義視頻模型,使其可以生成電影視頻,並利用其增強創作者的作品。當然,這個探索需要更長時間,並具備很強的不確定性。

另一種模板化的路徑是與行業頂尖的創作者合作,推出最佳實踐。快手在不久前宣佈啓動“可靈AI”導演共創計劃,聯合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯9位導演,依託可靈的技術能力,製作出品9部AIGC(人工智能生成內容)電影短片。其中沉澱出來的最佳實踐,也能爲更多內容創作者使用可靈時提供借鑑。

我們也看到,越來越多的視頻生成大模型開始面向企業開放API接口,藉助更多企業的力量,共同開發視頻生成大模型的場景化模板。比如Runway爲其視頻生成大模型Gen-3 Alpha Turbo開放了僅限受邀者使用的API接口,供受邀者在應用中構建視頻生成功能。Luma、Vidu也都推出了自己的API開放計劃。

未來文生視頻大模型的發展,還有待繼續觀察。

(編輯:吳清 審覈:李正豪 校對:顏京寧)