歐洲科學院外籍院士徐東:文生視頻要求門檻高 但已初現曙光!
2023年12月5日,深圳市互聯網信息辦公室、寶安區人民政府、本站傳媒聯合主辦的“2023新一代人工智能(深圳)創業大賽”頒獎典禮在深圳成功舉辦。
“2023新一代人工智能(深圳)創業大賽”旨在促進人工智能的創新發展,助力人工智能初創企業健康成長。經過海選報名和多輪篩選比拼,大賽獲獎項目將由主辦方從現金、流量扶持、產業資源供需對接等多維度給予豐厚激勵。現場,“本站新一代人工智能產業聯盟”正式成立,未來將持續加強產業、資本、媒體、政府資源的鏈接,爲創業者提供服務。
現場,國際電氣和電子工程師協會會士(IEEEFellow)、歐洲科學院外籍院士(ForeignMember of Academia Europaea)、香港大學教授、徐圖智能CEO徐東做了《AIGC時代視覺內容生成:過去、現在與未來》主題演講;徐東表示,人工智能技術已經能夠生成高分辨率、高真實度和高多樣性的圖像內容,但文生視頻比文生圖更難上十倍甚至百倍,目前文生視頻已經初現曙光,但離大衆對生成高質量較長視頻的廣泛需求還有一段距離。
徐東認爲,文生視頻和ChatGPT一樣需要大模型,而且要求門檻很高,“不是誰都能做的,開源社區可能也不太可行,因爲算力要求太高了,開源社區做文生圖像還可以,做文生視頻可能是不實際的。”(記者:平章)
以下爲徐東演講節錄:
尊敬的各位領導、各位來賓,大家下午好。很高興能夠參加今天這個活動,我報告的題目是《AIGC時代視覺內容生成:過去、現在與未來》,我將從以下6個方面向大家進行彙報:引言、視覺內容生成的發展歷程、擴散模型的原理和特點,重點介紹一下文生圖的概念和應用以及文生視頻的概念和應用,最後是總結。
文生圖這件事情就是給一個文本產生一張圖像。給一個文本產生視頻叫文生視頻。當然也可以給定多模態數據包括圖像、文字來產生圖像或者是產生視頻,輸出一定是圖像或者是視頻這樣的視覺內容。
這個任務的主要目的是實現高速、高效、高自由度的視覺內容生成,滿足人們對視覺內容多樣化的需求,激發人們的創作力和想象力,促進視覺文化的發展和創新。
人工智能技術已經能夠生成高分辨率、高真實度和高多樣性的圖像內容,這是Midjourney產生的圖像,右邊是國內比較流行的APP秒鴨相機產生的寫真集,給了多張人臉圖像,不用去照相館就能夠產生照相館質量的圖像。這裡面會面臨很多的挑戰,包括法律和倫理方面的挑戰,由於時間關係就不一一介紹了。
在生成模型的發展歷程中,比較著名的是生成對抗網絡(GenerativeAdversarialNetwork,GAN),但是難以訓練,模型訓練過程通常會崩潰,做了多年的結果也不盡如人意。另外有一個是變分自編碼器(VariationalAuto-Encoder,VAE)的方法,但是它產生圖像的保真度還不是很高,最近流行的擴散模型(DiffusionModel),能夠實現穩定的訓練,而且能夠產生高質量和多樣性的圖像,這是現在主流的研究方向。
我簡單介紹一下擴散模型的基本想法,給定一張輸入圖像,經過1000次加噪聲的過程就是一個前向過程,得到一個噪聲圖像。同時有一個所謂的逆向過程,經過1000步去除噪聲的過程,恢復出原始的圖像。加噪過程可以通過公式直接算出每步加噪聲後得到的圖像。去噪過程是要學習一個網絡,逐步地實現去噪的過程。基本思想是在去噪聲999步以後的結果和原始圖像加噪1步以後的結果的概率分佈要比較像,去噪聲998步的結果也要和加噪聲以後2步的結果比較像。通過引入一系列這樣的損失函數(loss)就可以訓練出一個很好的圖像去噪網絡。這樣能夠從噪聲中恢復出圖像。
這是網絡大概的結構,是一個U-Net結構,包含一系列的Transformer網絡,基於大量的文本圖像對就可以學習這些Transformer網絡的參數,最終可以實現從噪聲中恢復出圖像。
這是文生圖的結果,可以生成高質量、多樣性好和穩定性強的圖像,當然面臨生成速度比較慢,佔用內存比較大,還有就是難以控制的問題。現在針對這些問題也有不錯的解決方法。
“擴散模型”剛開始出來的時候還是不支持文生圖的,去年在6月份的CVPR的工作LatentDiffusion模型,它叫做“潛在擴散”模型。當然它不是在原始圖像空間做的,而是在一個潛在空間中實現的,更重要的是引入了文本作爲條件,通過所謂的cross-attention這個機制,使得能夠實現文生圖像。這個工作是文生圖領域的早期工作之一,也引領了文生圖領域的發展。通過在大規模的文本-圖像數據集上進行訓練,訓練後得到的模型能夠實現基於文本生成高質量圖像。而且這個文生圖的模型很快就開源了,極大的促進了文生圖這個領域的研究和落地。
最近有一些針對文生圖模型來進行模型壓縮的工作,這是美國東北大學的學生在Snap做實習生時做的一個工作,通過模型剪枝和蒸餾的方式,他們的算法可以在iPhone14Pro上運行,利用iPhone14Pro的算力而不是像Midjourney利用雲端的算力,也可以在2s完成文生圖。這兩天,谷歌的工作在手機端可以在0.2s實現文生圖。文生圖不僅可以在雲端做得很快,利用手機端的算力現在也可以實現實時出圖了。
以前我們講了加噪和去噪過程開始要1000步,後來變成幾十步的去噪過程,現在能夠實現幾步,甚至1步就能完成去噪過程,而且生成圖像的質量也不會顯著下降,這樣生成圖像的速度就能顯著提升。
這是我的同事香港大學羅平教授和他帶的團隊用商湯的算力做的工作,叫RAPHAEL,通過堆疊混合多個專家的模型,不同專家處理不同區域,不同時間選擇不同專家,這個模型很多情況下能夠取得和Midjourney相似的結果,甚至能夠超過Midjourney的結果。基於這個工作訓練的模型也部署到了商湯的“秒畫”裡面。
不得不講產品級的東西,這是OpenAI的DALLE系列,最開始的結果不是很好,但是2022年DALLE-2推出之後,分辨率就提升了400%,可以刻畫細節、生成準確的五官。最近剛剛推出的DAlLDE-3這個系列能夠生成更加高質量的圖像。因爲OpenAI的語言理解能力很強,大家都知道ChatGPT,最大的特點是能夠很容易理解用戶的語言,知道用戶要幹什麼。像我們在國內剛推出文生圖的模型時都不能理解唐伯虎點秋香或者是魚香肉絲。因爲有很好的語義能力,可以支持很長的文本輸入,生成和輸入文本語義非常接近的圖像,極大的提升了DALLE-3文生圖的結果,尤其是在輸入複雜prompt的情況下。
不得不說另外一家叫Midjourney的公司,這家公司成立時間也不長,就2年多,剛開始很長一段時間都只有11名全職員工,至今仍未融資,去年7月份開始進入公測階段。Midjourney做產品的能力很強,而且有很多自己獨有的數據,通過不停地調模型,現在是這個賽道世界第一的公司。他們巧妙利用了Discord的社區,擁有1000萬的社區會員,建立了社區優勢,積累形成了獨有的數據集,建立了反饋(feedback),有不同的用戶用這個產品,就會不停地改進模型,越來越好。大家都知道它剛開始生成手指不太好,只能生成4根手指,現在已經能夠生成5根手指了。
去年8月,由Midjourney生成的圖像“太空歌劇院”在美國的一個比賽中獲得了美術競賽數字藝術類別的一等獎,當然有一個爭議就是Midjourney生成的圖像是否能夠參加這樣的比賽。Midjourney採用了SaaS模式,每個月付費是10-60美元/月,按照用戶數量保守估計年營收達到億萬美金,即使它自己沒有融資,它完全能夠自負盈虧,也不需要融資。他們面向的用戶是小b和企業端,針對的是以畫畫爲生的人,能夠幫用戶提高生產力和效率,有時候幫助他們提高創意,做出想象不到的圖像出來,引發他們設計更好的更有創造力的圖像,他們非常適合於遊戲、電影、或者是出版等創意行業,用戶付費的意願非常強烈,所以收入還是不錯。但是現在也面臨OpenAIDALLE很強的競爭,包括國內也有很多(例如商湯的秒畫以及百度的文生圖)的競爭。最近DALLE·3出了以後,對它的收入應該有一些影響了。
文生圖模型去年開源以後已經形成兩個頭部企業,一個是Midjourney,另外一個是OpenAI的DALLE系列,國內也有多家創業團隊做這個方向。所以現在最新的研究趨勢是文生視頻,即給定文字如何生成視頻。爲什麼不能用Midjourney這個文生圖軟件,生成一系列的圖像拼在一起就是視頻了,顯然遇到第一個難點就是連續性的問題,你把這些圖像拼在一起放成一個視頻來放是不連續的,有所謂的“抖動”問題,這是一個難點。
另外是生成視頻從一個場景到另外一個場景,這個人可能從張三變成了李四,或者是狗熊顏色發生變化了,即物體一致性問題也很難解決。解決這兩個問題都非常難,不能簡單用Midjourney生成的圖像拼起來變成一個視頻,這是不可能的。
簡單的做法是把擴散模型裡面針對空間維度的Transformer網絡(即二維網絡結構),通過額外加入時間維度上的Transformer結構擴展變成三維的網絡結構,再利用海量的文本視頻對進行訓練,這是其中一個主流的方向,這個部分也有一些初步的進展了。
這是Meta剛公佈的Emu-video系統文生視頻的結果,就是基於之前的一篇文章,做了很多工程化的事情,結果還是不錯的。
Stability-AI最近開源了的一些東西,也有一篇比較詳細的文章來介紹他們文生視頻的工作。現在大家都開始走向閉源,Stability-AI也沒有發佈任何的訓練代碼,測試/推理代碼也只提供了圖生視頻的代碼,給一張圖像生成一段視頻,這其實有問題的,比如說給你一艘船,這個船怎麼動起來呢?很多時候是根據訓練模型時採用的船的視頻怎麼動就可以類似的動一下。而且很多時候是攝像頭的全局運動,而不是物體的運動。他們只放了圖生視頻的測試/推理代碼,你們可以去測一下。但是文生視頻的測試/推理代碼他們現在也沒放出來。
其實Stablility-AI是一家很牛逼的公司,因爲它一直是做開源的,開源的工作也有非常大的影響力,最近也做了很好的文生視頻的工作。他們也融了很多錢,但是產品化或者商業化的能力不及Midjourney,所以他們的公司現在是處於比較困難的狀態。
我個人做的比較多的是視頻到視頻的風格轉化,這也是RunwayGen-1做的事情,因爲我們做了很長一段時間的深度視頻壓縮,所以把很多視頻壓縮的技術用來做視頻風格轉化,當然我們是結合了ControlNet對視頻的I幀和P幀做了分別的處理。這是以前我們做的深度視頻壓縮的工作,如果大家對視頻壓縮比較瞭解的話,以前的標準如H264、H265都是採用了手工設計的技術,我們是第一個把全部模塊深度學習化了,用端到端的方法來進行訓練,而且我們使用訓練集(MIT團隊收集的)一直被後來的團隊採用。剛開始因爲離標準H265離得很遠,所以大廠也不願意做,和現在的情況比較像。現在文生視頻離真正能用,我個人覺得還是有一段距離,所以大廠可能會做,但不會花全力去做它。
我們當時做了一系列深度視頻壓縮領域從0到1的工作以後,谷歌幾年之後也開始做了,但是我們還是能夠保持領先。視頻壓縮也是video到video的過程,一個原始的video經過壓縮以後得到一個比特流,然後再基於這個比特流重建另外一個video,所以也是視頻到視頻的過程。這是我們視頻到視頻的風格轉化的結果,有些視頻還是挺難的,現在我們的系統可以把輸入視頻變成不同風格的輸出視頻,比如說虛幻、日漫、油畫風格等等,這就是Runway的Gen-1做的事情。當然我們也可以把前景摳出來,把前景的人物換成機器人或者是不同的人,也可以把前景扣出來的部分放入到不同的背景中,這些功能可以用做二次創作。如果你本來就是以生成視頻爲生,你要加一些搞笑的東西或者是風格轉換,這些AIGC的工具可以幫你做二次創作。
我們公司長期還是想做文生視頻,是基於文生圖的框架加一些運動相關的模塊變成文生視頻的系統,未來也要進一步做時空超分,把分辨率做得更高一些,既要在圖像空間上提高分辨率,也要在時間空間上提高分辨率,使得視頻更長一些。
這是AIGC視覺內容生成發展的歷程,這是幾個月前的數據,Midjourney的用戶數現在已經上千萬了,Runway上升得特別快,Runway是文生視頻的公司,7月份宣佈融資1.4億美金C+輪,估值從5億美金到了15億美金,剛纔講的RunwayGEN-1的模型可以通過視頻到視頻的變化,改變視頻的風格,跟我們現在做的比較像。RunwayGEN-2可以實現文生視頻,當然它現在也不能生成很長的視頻,現在大概是幾秒(2、3秒)的短視頻,運動幅度不是特別大,這個問題還是挺難的。Runway也做了一個MotionBrush的功能,很像馬良畫圖,讓圖像能夠動起來,現在有很多人去玩這個功能。Runway之前也做過視頻編輯工具,和電影廠商有一些合作,電影中一些特效的部分也是Runway做的,所以它可以ToB也可以ToC。
我想分享一個事是在剛開始時,Runway和慕尼黑的一個大學合作的,你看StableDiffusion這個開源模型的不同版本,一開始是Runway參與到這個開源模型的,後來慕尼黑那邊的團隊又和Stability-AI這家公司合作,可能因爲他們有很多的算力。而Stability-AI一直走開源路線,但是好像一直找不到很好的盈利方式,現在就處於比較困難的狀態。後來Runway這幫人可能就意識到不能走開源路線,所以他們就開始做文生視頻了,而且堅決做閉源。GEN-1的時候放了一個文章出來,也說要放GEN-2的文章,但是幾個月過去,現在還沒有放出GEN-2的文章。現在不只是開源的問題了,包括OpenAI現在都不講技術細節了,完全是走閉源的路線。
這是Runway估值的情況,收入還是不高,15.9million美金的收入數目是不高的。之前做視頻編輯方向,估值也不是很高。現在因爲AIGC時代爆發了,所以現在估值完全不一樣了。
大家可能更關注的是Pikalabs,它的三個創始人都中國大陸背景,它也在Discord部署的,在幾個月內收穫了50萬用戶,團隊相當精簡,僅有4位全職成員,創始人是郭文景,她和CTO都是斯坦福的博士,今年4月份左右出來的,公司只成立了幾個月的時間。第三位創始人在商湯待過一段時間,目前已累計完成了3輪融資,共5500萬美元融資,最新估值是2.5億美元,最近推出了Pika-1的模型,不僅是對視頻的質量有一些提升,他們支持動漫和電影的多種風格視頻,而且還實現了一些別的功能。
我想分享一下他們CEO郭文景的訪談,因爲她是大陸背景的,一下吸引了很多國內的自媒體採訪他們。她認爲需要突破的技術是時長的問題,清晰度也需要進一步提高,現在大概是720P,流暢性不是很好,這些觀點我都同意。對於清晰度的問題,需要做超分,一定要做到1080P(抖音的程度)。時長是一個更難的問題,現在大概就是兩三秒,比如說圖生視頻給一個圖像,到底這個圖像中物體怎麼動,這個“動”的方式和文字是否一致,動得合不合理,和用戶想要的動的方式是否一致,這都是很難的,你要關注“動”的意義,看上去是合情合理的動作,而且未來做得更長,不只是2秒、3秒,未來甚至5秒、10秒,動作幅度越來越大。其實包括Runway產生的視頻動的幅度也不是很大,它有一個選項可以調節動作幅度,如果你調動作幅度很大的時候,生成的結果很多時候也不是很好的,它沒有達到成熟的地步,這個和ChatGPT不太一樣。
郭文景也認爲視頻生成處於GPT-2時代,未來一年有顯著的提升。我不敢這麼斷定說一定相當於GPT-1、GPT-1.5或者是GPT-2,我個人認爲是“初現曙光”,如果你是外行會覺得文生圖做得這麼好,文生視頻不是明天就做好了嗎?其實文生視頻比文生圖難十倍、百倍。而且這個賽道相當的長,甚至有可能比ChatGPT還長,最終的目的可能是給定一個劇本,自動的產生1-2個小時的電影。現在應該是出現了曙光,我們的工作都是讓圖像動起來,Runway的結果在一些時候動得還不錯。
郭文景也講到了另外幾件事,一是視頻數據獲取很重要,需要收集大量的數據,帶來了算力的巨大需求。因爲PikaLab是融資之後有一家融資機構給了一些GPU卡,估計有幾百塊的GPU卡來用,她認爲未來也會像ChatGPT一樣需要大規模的算力。這個觀點我也同意,比如包括在Stability-AI的文章中也提到了要收集上億的視頻數據進行訓練,這也需要大量的算力。
但是好處是應該不會出現100個語言大模型,這個文生視頻的大模型和ChatGPT一樣要求門檻很高,不是誰都能做的。開源社區估計也不行,因爲算力要求太高了,開源社區做圖像還可以,做視頻應該也比較困難,除非是有算力的機構免費把算力貢獻出來做這個方向。
這是我自己理解的AI1.0和2.0時代創業的比較,1.0時代中國投了很多AI公司,美國基本上沒投。2.0時代好像反過來了,美國投了500家以上,中國投了不到50家,因爲各種各樣的原因。可能一點是AI1.0時代,中國很多風投投了很多AI公司,但感覺到退出很困難,而且也賺不到錢。AI1.0時代大家也號稱平臺型公司,其實最後就是項目型公司,人臉識別到不同的場景就要開始派人收數據,不停地調模型,還要部署,每個地方都要人,搞得現在人很多,研發人員也特別多,而且不便宜,導致入不敷出,就虧錢,很多大公司也虧錢。
AI1.0時代,另外一個最大的問題是開源,開源導致算法門檻很低,而數據和工程化能力很重要,這是大廠決定開源的原因。谷歌當時是極力鼓吹開源的,因爲有數據也不怕開源,開源之後模型會越來越好。但是現在谷歌發現他們自己發明的Transformer居然成就了OpenAI這個巨大的競爭對手,所以他們也不提倡開源,據說現在發表文章也需要內部先審覈。Meta任然在提倡開源,開源了語言大模型,但是文生視頻的模型也沒有開源。所以我估計AI2.0時代文生視頻方向開源可能不會成爲主流,而且越是接近大規模真正實用的時候,我認爲這個賽道頭部的公司越不會開源。現在文生視頻這個賽道頭部公司不僅不開源的,甚至都不發表文章了。大家都看到這個賽道算力要求越來越大,所以開源模型大概率不能超過閉源模型,而且一旦形成技術壁壘之後,尤其是數據不斷迭代後開源模型未來很難超車。
AI2.0初現了平臺型公司,比如說OpenAI,它很快就有上億的用戶數,而且也不需要很多人,OpenAI剛開始300多人現在就是700多人,Midjourney剛開始11個人,現在可能就是幾十個人。我有一個同事在美國的一家創業公司Reka剛開始3-4個人,前段時間融了5000萬美金。但是一定要有懂GenerativeAI的人,這很重要,因爲GenerativeAI是一個新興的研究方向,國內的人才儲備相對還是比較薄弱。這樣小而精的團隊能夠保證未來盈利,平臺型公司能賺很多錢,而且人員的成本不高,錢大部分會花到算力上,算力要求很高。
而且AI1.0和2.0面向的對象也是不一樣的,AI1.0時代的技術是取代藍領的,比如說無人駕駛希望精度做到99%,甚至99.99999%,很高的精度。但是AI2.0時代的技術也不是取代白領,而是提高白領的生產效率,讓本來就以畫畫爲生的人畫得更快、更好、更有創意,本來以視頻製作爲生的人讓他做得更好,所以這樣就很容易落地,做得不好可以後續處理,不再有那麼高的要求,而且技術不停迭代就可以不停地變好,比如說Midjourney幾根手指的問題。相對來說AI2.0的創業肯定是靠譜的,國內因爲各種各樣的原因,可能AI1.0時代吃了很多虧,感覺現在創業的投入度比國外少很多。
總結過去,視覺內容生成領域已經取得了很多成就,展望未來有很多需要探索的新問題,包括速度、可控性、監管的問題,由於時間不再一一介紹,謝謝大家。