張一鳴姍姍來遲,卻更遲了

進入9月,視頻大模型成爲了大廠的AI新賽點。而這一次,張一鳴再次姍姍來遲。

距離阿里通義千問文生視頻上線5天,距離6月份快手發佈可靈,時間已經過去3個月,9月24日,字節終於推出了自己的豆包·視頻生成模型。

而值得關注的是,一向看重投資回報率(ROI)、偏實用主義的張一鳴,一開始就爲豆包視頻大模型定了“商業化”的調。

在活動現場,火山引擎總裁譚待表示,豆包視頻生成模型從一落地就開始考慮商業化,使用領域包括電商營銷、動畫教育、城市文旅和微劇本,例如音樂MV、微電影和短劇等。

圖注:輸入“一個戴着聖誕帽的小女孩抱着布偶貓”生成效果

圖源:字母榜

同時譚待也強調,在豆包視頻大模型發佈前,就已經在抖音不少短劇項目“露臉”。而上個月,崑崙萬維發佈 AI 短劇生成平臺SkyReels,7月,美圖秀秀髮布AI 短片生成工具MOKI。

“現在已經有上百家短劇出海企業成爲AI大模型用戶。”某頭部AI 工具服務商亦表示,對於大模型廠商如字節而言,用AI打下高昂的影視製作成本,AI加持下,短劇、MV將成爲類似網文、短視頻一樣有更多用戶參與的內容產品,在他看來,“晚來的字節,下的是商業化的棋。”

事實上,當Sora“平地一聲雷”炸圈,能否推出視頻大模型,成爲了2024年衡量大模型廠商技術是否先進的“新標準”。

在這場齊追Sora的追逐戰裡,“不緊不慢”的字節,拖到9月底纔在豆包大模型Pro升級的當口,爲視頻大模型“留了一個版面”。

當字母榜打開即夢AI,注意到應用豆包視頻大模型後,C端用戶能夠在即夢AI內體驗視頻生成。

最長12秒“中規中矩”的生成時長,對齊可靈的生成效果,“不算驚豔,但遲了幾個月,也沒被先發的視頻大模型甩出技術差距。”作爲首批內測豆包視頻大模型的AI從業者,張洋告訴字母榜,儘管國內視頻大模型扎堆更新,但字節姍姍來遲的底氣,或許正在於此前AI視頻生成的效果,都並未能讓用戶“驚豔”。

而國產模型追Sora的同時,OpenAI卻已經通過GPT-o1的推出,爲基座大模型展示了強化學習的新路徑,OpenAI或即將迎來估值超萬億的新時代,大模型廠商們,也將面臨新的賽點。

A

剪映此前推出的即夢AI只支持3秒的視頻時長;加載豆包大模型後,即夢AI內可以生成3-12秒的視頻。

相比之下,可靈1.0版本,在未開通會員的情況下,只能體驗5秒的視頻生成,而字節的即夢AI通過每天登錄發放66積分的形式,支持用戶的免費試用。

不過,不像豆包大模型憑藉低於行業98%的價格,開始捲起“大模型零元購”,引發熱議,豆包大模型似乎不符合字節一貫“悶聲幹大事”的傳統,顯得有些粗糙。

輸入“一個小女孩懷抱着布偶貓”的關鍵詞,在豆包視頻大模型發佈前的內測版,第一次,AI似乎將布偶貓理解成了玩偶,生成的視頻是懷抱着假貓,視頻內的人臉也略顯僵硬。

而等9月25日再次生成後,布偶貓又變成了田園貓,第三次生成時,才AI大模型才準確完成了指令。張洋告訴字母榜,作爲首批內測的AI從業者,豆包視頻大模型的使用效果並不算驚豔。

不過,豆包視頻大模型可以切換3D動畫、2D動畫、國畫、黑白、厚塗等不同風格,還可以選擇隨機運鏡,或者自定義推近、拉遠等運鏡形式,相比起只提供16:9、9:16、1:1三種畫面比例的可靈,豆包顯然更加適配不同的畫面比例,包括3:4、2:3、4:3、3:2等更多的比例選擇。

在張洋看來,在用戶的互動的體驗上,豆包確實提供了更多的選擇。不過,雖然豆包視頻大模型可以實現一個prompt內的多鏡頭切換,但“整體畫面的銜接仍有些不流暢,人物的表情有些失真。”

不過,張一鳴這次也毫不意外地將“實用主義”刻在了豆包視頻大模型的基因裡。

豆包視頻大模型一經發布,便面向企業市場開啓邀測,同時火山引擎總裁譚待更表示,豆包視頻生成模型從一落地就開始考慮商業化,使用領域包括電商營銷、動畫教育、城市文旅和微劇本,例如音樂MV、微電影和短劇等。

不同於其他“拿着錘子找釘子”的AI創企,不論是字節還是快手,“本身有內容有平臺,釘子在手,做視頻大模型天然有着更多的應用場景。”張洋表示,

7月24日,可靈AI官方微信發文透露,目前申請權限的用戶數已突破100萬,並在同一天上線付費會員體系,包含黃金、鉑金、鑽石3個會員類別,年度會員價格從500多元到5000多元不等。對於姍姍來遲的字節而言,或許能在技術上與可靈不分上下,但在商業化路徑上,已經開啓C端付費的可靈,似乎再次快了一步。

B

5月,面對“OpenAI 在谷歌發佈I/O的前一天發佈GPT-4o”的問題,谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言,“當我們正處於AI的拐點上時,我看到的是機會,所以如果把這個時間線拉長,那麼某一天發生的某一件事就都無關緊要了。”

如同被OpenAI時時搶跑的谷歌,晚來的字節,手握釘子,似乎打的還是後來居上的主意。

根據QuestMobile數據顯示,截止到7月份,AI APP月活用戶規模已突破6630萬。其中,豆包、文小言、Kimi、星野、通義位居top5,月活用戶規模分別爲3042萬、1008萬、625萬、466萬、424萬。

儘管豆包APP的發佈時間明顯晚於阿里的通義千問、更晚於百度的文心一言、Kimi,但豆包的月活用戶規模已經大於其他四家APP用戶活躍數的總和。

因此,在AI視頻生成領域,面對國內技術突破遲滯的現狀,字節也似乎有着晚來的底氣。

不管是先出圈的可靈,還是姍姍來遲的字節豆包視頻大模型,7月、9月扎堆推出視頻大模型的廠商們,似乎誰都沒能追趕上Sora。

從快手的《山海奇鏡之劈波斬浪》,到字節的《三星堆:未來啓示錄》,用AI做短劇成爲了頭部廠商AI視頻生成效果的“鍊金石”。

顯然,相比起需要真實人物出現並互動的傳統短劇,神話、科幻等類型的短劇,更適合現階段的AI大模型。

“現在的AI生成水平不穩定,大場景的炸彈爆炸、煙火升空等等的效果已經真假難辨,但也需要調試人員先生圖,再進行1-2個小時的調整,”張洋告訴字母榜,現在的AI大模型生成的視頻,更細節的人物表情和動作生成,仍然存在表情不自然,動作幅度小、表現形式機械的問題。

而AI短劇平臺 Reel.AI 朱江也在採訪中直言,“非動漫短劇預計要在今年下半年才能達到可消費水平。

李彥宏曾表示,“所謂領先12個月或落後18個月並不重要,每個公司都處在完全競爭的市場內,你不管做什麼都有很多競爭對手。”

手握億級用戶規模的抖音APP,字節的從容不難解釋。甚至如今還未發佈視頻大模型的騰訊,也手握着微信這一最大的社交APP,對於“手握釘子”的張一鳴和馬化騰,他們似乎有着更多的選擇。

C

“現在用哪家的視頻大模型,都在抽卡。”

文章轉載:[xin.gapncc.com)

“生成10次裡大概有1次能真的達到商用標準,但調試10次的過程,或許還不如人工更有效率。”試用過市面上的幾家視頻大模型後,影視從業者單杉直言,現在的大模型在生成效果上,沒有達到用戶的期望。

文章轉載:[xin.gdpsred.com)

“輸入生成一段布偶貓的視頻,結果要不就是理解成玩具貓,要不就是田園貓,當用戶2-3次試用無法得到穩定且超出預期的結果,就很難真正地完成用戶留存”。在單杉眼裡,這或許也能解釋爲何發佈已超半年,Sora卻遲遲沒有公測。

文章轉載:[xin.genfog.com)

年初便曾有報道稱,OpenAI CEO奧特曼將投入7萬億美元與臺積電合作建設晶圓廠,意在跳過英偉達自研芯片,而9月,OpenAI被爆出臺積電正在爲其“Sore視頻模型”開發一款定製A16埃米級工藝芯片,目的在於提升其視頻生成能力。

文章轉載:[xin.gentyo.com)

而這款A16的芯片,密度提升1.10倍,在相同工作電壓下,速度提升了8%—10%;在相同速度下,功耗卻降低了15%—20%。用“更低的價格和能耗,推進更快的AI視頻生成”,顯然是OpenAI押後Sora公測的重要原因。

文章轉載:[xin.ghxhcg.com)

想要實現更好的AI視頻生成效果,更大的算力成本的支出,更低的價格和能耗,這也成爲了國內視頻大模型最終能否“跑出來”的關鍵因素。

文章轉載:[xin.gibtour.com)

而近日,字節又被爆出計劃與臺積電就AI芯片開展合作,儘管字節隨後迴應稱報道不實,並表示在芯片領域的探索更多集中於推薦和廣告的業務優化。但在字節招聘網頁輸入“芯片”等關鍵詞,包含AI芯片架構、芯片SIL測試工程師在內,已經有200多個相關崗位。

文章轉載:[xin.glenn52.com)

但對於張一鳴乃至國內的大模型頭部廠商而言,擺在他們面前的挑戰或許更爲棘手。

文章轉載:[xin.gms971.com)

9月19日,在2024雲棲大會上,月之暗面創始人楊植麟表示,GPT-o1的推出的主要意義在於提升了 AI上限。“提升10%的生產力,還是說10倍GDP,這裡面最重要的問題,就是能不能通過強化學習去進一步scaling。”

文章轉載:[xin.gno515.com)

在GPT-o1時代,當如今的豆包、通義千問、文心、Kimi的即時聊天,從思考10秒、20秒生成答案,到能夠調用各種工具,去執行分鐘級別甚至天級別的任務,國內用戶已熟知的AI即時聊天產品形態將迎來巨大的改變,“AI更像人,或者一位助理”,這似乎成爲了月之暗面們下一次追趕OpenAI的新賽程。

文章轉載:[xin.gochui.com)

當新的競爭時刻再次到來,國內大模型廠商的基座大模型彼時未見“新水花”,但對於張一鳴們而言,則又一次面臨抉擇。

文章轉載:[xin.goolisa.com)

是將大把的“人、錢、算力”繼續投向文生視頻這樣的功能場景做迭代,還是學習OpenAI,引進強化迭代路線?對於不缺錢的字節來說,當然可以“兩個都要”。

文章轉載:[xin.goyo-c.com)

而當“強化學習”帶來的想象空間足夠大、足夠誘人,新的發令槍打響,沒能起早的字節,這一次能衝在前頭嗎?

文章轉載:[xin.gradess.com)

(文中張洋、單杉爲化名)

文章轉載:[xin.grgcc.com)