☰

張一鳴姍姍來遲，卻更遲了

進入9月，視頻大模型成爲了大廠的AI新賽點。而這一次，張一鳴再次姍姍來遲。

距離阿里通義千問文生視頻上線5天，距離6月份快手發佈可靈，時間已經過去3個月，9月24日，字節終於推出了自己的豆包·視頻生成模型。

而值得關注的是，一向看重投資回報率（ROI）、偏實用主義的張一鳴，一開始就爲豆包視頻大模型定了“商業化”的調。

在活動現場，火山引擎總裁譚待表示，豆包視頻生成模型從一落地就開始考慮商業化，使用領域包括電商營銷、動畫教育、城市文旅和微劇本，例如音樂MV、微電影和短劇等。

圖注：輸入“一個戴着聖誕帽的小女孩抱着布偶貓”生成效果

圖源：字母榜

同時譚待也強調，在豆包視頻大模型發佈前，就已經在抖音不少短劇項目“露臉”。而上個月，崑崙萬維發佈 AI 短劇生成平臺SkyReels，7月，美圖秀秀髮布AI 短片生成工具MOKI。

“現在已經有上百家短劇出海企業成爲AI大模型用戶。”某頭部AI 工具服務商亦表示，對於大模型廠商如字節而言，用AI打下高昂的影視製作成本，AI加持下，短劇、MV將成爲類似網文、短視頻一樣有更多用戶參與的內容產品，在他看來，“晚來的字節，下的是商業化的棋。”

事實上，當Sora“平地一聲雷”炸圈，能否推出視頻大模型，成爲了2024年衡量大模型廠商技術是否先進的“新標準”。

在這場齊追Sora的追逐戰裡，“不緊不慢”的字節，拖到9月底纔在豆包大模型Pro升級的當口，爲視頻大模型“留了一個版面”。

當字母榜打開即夢AI，注意到應用豆包視頻大模型後，C端用戶能夠在即夢AI內體驗視頻生成。

最長12秒“中規中矩”的生成時長，對齊可靈的生成效果，“不算驚豔，但遲了幾個月，也沒被先發的視頻大模型甩出技術差距。”作爲首批內測豆包視頻大模型的AI從業者，張洋告訴字母榜，儘管國內視頻大模型扎堆更新，但字節姍姍來遲的底氣，或許正在於此前AI視頻生成的效果，都並未能讓用戶“驚豔”。

而國產模型追Sora的同時，OpenAI卻已經通過GPT-o1的推出，爲基座大模型展示了強化學習的新路徑，OpenAI或即將迎來估值超萬億的新時代，大模型廠商們，也將面臨新的賽點。

剪映此前推出的即夢AI只支持3秒的視頻時長；加載豆包大模型後，即夢AI內可以生成3-12秒的視頻。

相比之下，可靈1.0版本，在未開通會員的情況下，只能體驗5秒的視頻生成，而字節的即夢AI通過每天登錄發放66積分的形式，支持用戶的免費試用。

不過，不像豆包大模型憑藉低於行業98%的價格，開始捲起“大模型零元購”，引發熱議，豆包大模型似乎不符合字節一貫“悶聲幹大事”的傳統，顯得有些粗糙。

輸入“一個小女孩懷抱着布偶貓”的關鍵詞，在豆包視頻大模型發佈前的內測版，第一次，AI似乎將布偶貓理解成了玩偶，生成的視頻是懷抱着假貓，視頻內的人臉也略顯僵硬。

而等9月25日再次生成後，布偶貓又變成了田園貓，第三次生成時，才AI大模型才準確完成了指令。張洋告訴字母榜，作爲首批內測的AI從業者，豆包視頻大模型的使用效果並不算驚豔。

不過，豆包視頻大模型可以切換3D動畫、2D動畫、國畫、黑白、厚塗等不同風格，還可以選擇隨機運鏡，或者自定義推近、拉遠等運鏡形式，相比起只提供16:9、9:16、1:1三種畫面比例的可靈，豆包顯然更加適配不同的畫面比例，包括3:4、2:3、4:3、3:2等更多的比例選擇。

在張洋看來，在用戶的互動的體驗上，豆包確實提供了更多的選擇。不過，雖然豆包視頻大模型可以實現一個prompt內的多鏡頭切換，但“整體畫面的銜接仍有些不流暢，人物的表情有些失真。”

不過，張一鳴這次也毫不意外地將“實用主義”刻在了豆包視頻大模型的基因裡。

豆包視頻大模型一經發布，便面向企業市場開啓邀測，同時火山引擎總裁譚待更表示，豆包視頻生成模型從一落地就開始考慮商業化，使用領域包括電商營銷、動畫教育、城市文旅和微劇本，例如音樂MV、微電影和短劇等。

不同於其他“拿着錘子找釘子”的AI創企，不論是字節還是快手，“本身有內容有平臺，釘子在手，做視頻大模型天然有着更多的應用場景。”張洋表示，

7月24日，可靈AI官方微信發文透露，目前申請權限的用戶數已突破100萬，並在同一天上線付費會員體系，包含黃金、鉑金、鑽石3個會員類別，年度會員價格從500多元到5000多元不等。對於姍姍來遲的字節而言，或許能在技術上與可靈不分上下，但在商業化路徑上，已經開啓C端付費的可靈，似乎再次快了一步。

5月，面對“OpenAI 在谷歌發佈I/O的前一天發佈GPT-4o”的問題，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“當我們正處於AI的拐點上時，我看到的是機會，所以如果把這個時間線拉長，那麼某一天發生的某一件事就都無關緊要了。”

如同被OpenAI時時搶跑的谷歌，晚來的字節，手握釘子，似乎打的還是後來居上的主意。

根據QuestMobile數據顯示，截止到7月份，AI APP月活用戶規模已突破6630萬。其中，豆包、文小言、Kimi、星野、通義位居top5，月活用戶規模分別爲3042萬、1008萬、625萬、466萬、424萬。

儘管豆包APP的發佈時間明顯晚於阿里的通義千問、更晚於百度的文心一言、Kimi，但豆包的月活用戶規模已經大於其他四家APP用戶活躍數的總和。

因此，在AI視頻生成領域，面對國內技術突破遲滯的現狀，字節也似乎有着晚來的底氣。

不管是先出圈的可靈，還是姍姍來遲的字節豆包視頻大模型，7月、9月扎堆推出視頻大模型的廠商們，似乎誰都沒能追趕上Sora。

從快手的《山海奇鏡之劈波斬浪》，到字節的《三星堆：未來啓示錄》，用AI做短劇成爲了頭部廠商AI視頻生成效果的“鍊金石”。

顯然，相比起需要真實人物出現並互動的傳統短劇，神話、科幻等類型的短劇，更適合現階段的AI大模型。

“現在的AI生成水平不穩定，大場景的炸彈爆炸、煙火升空等等的效果已經真假難辨，但也需要調試人員先生圖，再進行1-2個小時的調整，”張洋告訴字母榜，現在的AI大模型生成的視頻，更細節的人物表情和動作生成，仍然存在表情不自然，動作幅度小、表現形式機械的問題。

而AI短劇平臺 Reel.AI 朱江也在採訪中直言，“非動漫短劇預計要在今年下半年才能達到可消費水平。

李彥宏曾表示，“所謂領先12個月或落後18個月並不重要，每個公司都處在完全競爭的市場內，你不管做什麼都有很多競爭對手。”

手握億級用戶規模的抖音APP，字節的從容不難解釋。甚至如今還未發佈視頻大模型的騰訊，也手握着微信這一最大的社交APP，對於“手握釘子”的張一鳴和馬化騰，他們似乎有着更多的選擇。

“現在用哪家的視頻大模型，都在抽卡。”

文章轉載:[xin.gapncc.com）

“生成10次裡大概有1次能真的達到商用標準，但調試10次的過程，或許還不如人工更有效率。”試用過市面上的幾家視頻大模型後，影視從業者單杉直言，現在的大模型在生成效果上，沒有達到用戶的期望。

文章轉載:[xin.gdpsred.com）

“輸入生成一段布偶貓的視頻，結果要不就是理解成玩具貓，要不就是田園貓，當用戶2-3次試用無法得到穩定且超出預期的結果，就很難真正地完成用戶留存”。在單杉眼裡，這或許也能解釋爲何發佈已超半年，Sora卻遲遲沒有公測。

文章轉載:[xin.genfog.com）

年初便曾有報道稱，OpenAI CEO奧特曼將投入7萬億美元與臺積電合作建設晶圓廠，意在跳過英偉達自研芯片，而9月，OpenAI被爆出臺積電正在爲其“Sore視頻模型”開發一款定製A16埃米級工藝芯片，目的在於提升其視頻生成能力。

文章轉載:[xin.gentyo.com）

而這款A16的芯片，密度提升1.10倍，在相同工作電壓下，速度提升了8%—10%;在相同速度下，功耗卻降低了15%—20%。用“更低的價格和能耗，推進更快的AI視頻生成”，顯然是OpenAI押後Sora公測的重要原因。

文章轉載:[xin.ghxhcg.com）

想要實現更好的AI視頻生成效果，更大的算力成本的支出，更低的價格和能耗，這也成爲了國內視頻大模型最終能否“跑出來”的關鍵因素。

文章轉載:[xin.gibtour.com）

而近日，字節又被爆出計劃與臺積電就AI芯片開展合作，儘管字節隨後迴應稱報道不實，並表示在芯片領域的探索更多集中於推薦和廣告的業務優化。但在字節招聘網頁輸入“芯片”等關鍵詞，包含AI芯片架構、芯片SIL測試工程師在內，已經有200多個相關崗位。

文章轉載:[xin.glenn52.com）

但對於張一鳴乃至國內的大模型頭部廠商而言，擺在他們面前的挑戰或許更爲棘手。

文章轉載:[xin.gms971.com）

9月19日，在2024雲棲大會上，月之暗面創始人楊植麟表示，GPT-o1的推出的主要意義在於提升了 AI上限。“提升10%的生產力，還是說10倍GDP，這裡面最重要的問題，就是能不能通過強化學習去進一步scaling。”

文章轉載:[xin.gno515.com）

在GPT-o1時代，當如今的豆包、通義千問、文心、Kimi的即時聊天，從思考10秒、20秒生成答案，到能夠調用各種工具，去執行分鐘級別甚至天級別的任務，國內用戶已熟知的AI即時聊天產品形態將迎來巨大的改變，“AI更像人，或者一位助理”，這似乎成爲了月之暗面們下一次追趕OpenAI的新賽程。

文章轉載:[xin.gochui.com）

當新的競爭時刻再次到來，國內大模型廠商的基座大模型彼時未見“新水花”，但對於張一鳴們而言，則又一次面臨抉擇。

文章轉載:[xin.goolisa.com）

是將大把的“人、錢、算力”繼續投向文生視頻這樣的功能場景做迭代，還是學習OpenAI，引進強化迭代路線？對於不缺錢的字節來說，當然可以“兩個都要”。

文章轉載:[xin.goyo-c.com）

而當“強化學習”帶來的想象空間足夠大、足夠誘人，新的發令槍打響，沒能起早的字節，這一次能衝在前頭嗎？

文章轉載:[xin.gradess.com）

（文中張洋、單杉爲化名）

文章轉載:[xin.grgcc.com）

張一鳴姍姍來遲，卻更遲了

相關資訊