AI視頻神仙打架,BAT跟不跟?

繼發佈最新AI大模型“Genmini”僅一星期後,谷歌又公佈了自己的最新AI研究成果。

12月12日,谷歌宣佈,其與全球頂級計算機視覺專家、華裔AI教母李飛飛及其學生團隊合作,推出了AI視頻生成模型“W.A.L.T(全稱爲Window Attention Latent Transformer)”。

與前段時間刷屏全網、A股信雅達董事長女兒創業研發的PIKA 1.0類似,W.A.L.T也是一款AI視頻生成模型。

此前在12月6日晚間,谷歌曾發佈其最新一代的多模態AI大模型Gemini,並同步發佈了演示視頻。

但Gemini發佈後不久,即被爆出其演示視頻存在通過剪輯等手法、刻意美化模型效果的情形。正因如此,谷歌也一度陷入“造假”指控中。

僅僅6天過去,谷歌又通過發佈W.A.L.T瞄準了AI視頻生成,這也是如今AI應用落地最爲火熱的領域之一。

攜手華裔AI女神,谷歌搶灘AI文生視頻

與此前走紅的Pika 1.0類似,W.A.L.T同樣支持文生視頻、圖片生成視頻、3D視頻生成等功能。

而視頻效果方面,根據演示視頻及論文,W.A.L.T可以通過自然語言提示,生成3秒長的每秒8幀、分辨率爲512x896的視頻。

▲(圖源/W.A.L.T)

產業人士“歸藏”公開評價稱,W.A.L.T的效果“比Pika 1.0還要好得多,清晰度和動作都非常好”。

有趣的是,Pika的創始人、信雅達董事長的女兒郭文景,其實與李飛飛頗有淵源。

在退學創業之前,郭文景曾在斯坦福大學AI實驗室(NLP&圖形學方向)攻讀博士學位,而李飛飛則是斯坦福大學首位紅杉講席教授,亦曾在斯坦福大學AI實驗室中任職。

與後起之秀郭文景相比,李飛飛堪稱全球計算機視覺領域的奠基人與技術泰斗,也是包括谷歌在內、全球科技大廠爭奪的人才資源。

根據公開信息,1976年,李飛飛出生於北京,並在成都長大。1992年,16歲的李飛飛隨父母遠赴美國定居,並在三年後進入普林斯頓大學攻讀物理學。

在之後的求學生涯之中,李飛飛一步步確立了對於AI的研究興趣,並將研究重點轉移至彼時十分冷門的計算機視覺領域。2007年,李飛飛在經費短缺的情況下,開始了自己的首個項目ImageNet(教機器識別圖像的數據集)。

當時,AI圖像識別模型僅能認出四種物體:汽車、飛機、豹子、人臉,因爲以往研究者一般只會針對這四類物體進行模型訓練。想讓AI認識一種物體,需要人工先在圖片中標記出目標物,再將大量這樣的圖片“喂”給AI進行訓練。

而李飛飛的設想是,如果有一個足夠大的、經過標註的數據集,就能訓練出理論上“無所不知”的計算機視覺模型。

2009年,ImageNet正式發佈,很快成爲了幾乎所有視覺模型的訓練和測試素材庫。李飛飛也由此“一戰成名”,擁有了“華人AI教母”等頭銜。至今,ImageNet仍是全球AI產學界最知名的大型視覺數據庫之一。

無論是一週內連發兩大模型,還是與李飛飛團隊的合作,都說明谷歌在多模態AI模型研發方面正鉚足了勁。

AI視頻“神仙打架”,國內玩家怎麼看?

在剛剛過去的一段時間內,AI視頻生成賽道十分熱鬧。除了Pika 1.0、W.A.L.T,有不少AI視頻生成工具密集涌現出來或進行了功能更新。

舉例而言,11月初,美國生成式AI獨角獸企業Runway對其自研視頻生成模型Gen-2進行了功能更新,着力提升生成結果的保真度和一致性。

11月中旬,以社交產品起家的科技大廠Meta發佈了Emu Video模型。

11月末,美國文生圖片創企Stability AI推出了名爲Stable Video Diffusion的視頻生成模型,提供SVD和SVD-XT兩個模型。

▲(圖源/W.A.L.T)

而國內方面,字節跳動、阿里、百度等科技大廠均已跑步入場。

其中字節跳動於11月18日推出了文生視頻模型PixelDance,提出了基於文本指導+首尾幀圖片指導的視頻生成方法,使得視頻生成的動態性更強。

緊隨其後,阿里上線了Animate Anyone模型。用戶只需向該模型提供一個靜態的角色圖像和一些預設的動作(或姿勢序列),就能得到該角色的動畫視頻。

根據此前的公開信息,百度文心大模型的類似功能則在內測中,不久後會以插件形式開放。

國內外玩家的積極下場,在某種程度上說明AI視頻生成賽道將成爲這一輪AI技術升級過程中的下一個受益方向。不少產業人士已經感知到了市場的風向,英偉達高級研究科學家、曾在OpenAI工作過的Jim Fan就在社交媒體上寫道:“2022年是圖像之年,2023是聲波之年,2024(將是)視頻之年!”

中信證券研報則指出:“參考文生圖在廣告領域的應用,文生視頻同樣有望推動生產力革命,降低生產成本、創作門檻,促使AIGC技術產業化進程加速。我們認爲從能力的角度出發,文生視頻有望率先在短視頻和動漫兩個領域落地。”

不過,技術革新的另一面,則是對現有業態的衝擊。

在國內一家視頻創作工具企業工作的Leo告訴「市界」:“今年早些時候我們一直認爲AIGC主要還是作用在圖文創作領域,但距離滿足商業視頻要求還要經過一兩年的時間。”他補充道,這裡提到的商業視頻要求包括分鏡腳本製作時保持對象的一致性、連續性等。

而現在看來,視頻生成工具正以數倍於預期的速度進行迭代。在技術進步的倒逼下,現有的市場參與者們也不得不對自動化生成功能主動出擊和佈局。否則面臨的,可能是被時代拋棄的結局。

作者 | 董溫淑

編輯 | 董雨晴

運營 | 劉 珊