OpenAI CTO:Sora今年將發佈,會添加語音功能

3月14日消息,美國當地時間週三,人工智能初創公司OpenAI的首席技術官米拉·穆拉蒂(Mira Murati)接受了媒體記者專訪。在採訪中,她談到了該公司最新文本轉視頻工具Sora,這款產品預計將於今年晚些時候向公衆發佈,同時還會添加語音功能;此外在發佈前,團隊將對其進行優化,以降低計算資源消耗。

以下爲翻譯全文:

某個清晨醒來時,你是否曾幻想過一頭公牛在精緻的瓷器店中悠然自得地行走的場景?要實現這一奇幻景象,你有三種途徑:

A)聯繫當地的動物馴養師以及知名家居品牌Crate & Barrel;

B)僱請頂尖的好萊塢動畫製作人;

C)使用神奇的AI工具Sora,簡單輸入指令即可。

歡迎進入人工智能的下一個“魔法世界”。在這裡,你的語言能夠化作逼真、流暢且細膩的視頻畫面。

OpenAI計劃在今年晚些時候向大衆推出其文本到視頻的轉換工具Sora。儘管正式發佈尚需時日,但OpenAI已經向我們揭示了這款工具的驚人潛力:僅需精心設計的文本指令,便可創造出幾乎足以替代許多視頻製作專業人員的作品。《華爾街日報》專欄作家喬安娜·斯特恩(Joanna Stern)向該公司提交了幾條由她自己編寫的提示,比如一條美人魚和她的螃蟹夥伴評測智能手機,或是一頭公牛在精緻的瓷器店內自由漫步。

斯特恩隨後親身體驗了Sora的神奇之處,她利用這款工具製作了一段模擬對OpenAI首席技術官穆拉蒂進行虛擬視頻採訪的片段,兩人深入剖析了這些有趣的問題,並對該技術的潛在問題進行了探討。

OpenAI在上個月首次展示了用其生成式人工智能工具製作的視頻預覽,整個互聯網爲之沸騰。與之前那些斷斷續續、分辨率低下的人工智能視頻技術相比,Sora生成的內容無疑是一場視覺盛宴,堪比高品質的自然紀錄片或大製作電影。

與之前的人工智能技術相似,Sora首先讓我們對其能力感到驚歎,隨即又擔憂其對社會的影響。面對斯特恩的擔憂,穆拉蒂向她保證,OpenAI在發佈這一強大工具時將採取慎重的步驟。但這並不意味着一切都將無憂無慮。

這些超逼真視頻真的是Sora生成的嗎?

斯特恩對Sora生成的視頻感到深深震撼:從無人機視角拍攝的意大利阿馬爾菲海岸的壯觀景色,到手持自拍杆的柯基犬,再到衝浪板上活潑的動畫水獺,這些畫面無一不展示了Sora在創意和細節處理上的強大能力。她進一步挑戰Sora,要求它生成更接近日常生活的場景:“兩名30多歲、棕發的職業女性在一個明亮的演播室裡坐下接受新聞採訪。”

Sora生成的視頻中,兩位女性的嘴脣和頭髮動作自然流暢,皮夾克的細節也清晰可見。穆拉蒂透露,這段20秒長、720P分辨率的視頻僅用了幾分鐘就完成了生成,儘管目前還未加入聲音。但她承諾,OpenAI正在計劃爲Sora增添語音功能。

爲了對比Sora與其他工具的區別,斯特恩也在另一個AI視頻生成器Runway上輸入了相同的提示。然而,得到的結果大相徑庭,Runway生成的畫面是兩個模糊、幽靈般的女性形象,它們看起來像是直接從惡夢中走出來的,令人毛骨悚然。

那麼,Sora究竟是如何實現這一神奇轉換的呢?儘管解釋其內部工作原理可能比解釋美人魚的進化還要複雜,但簡單來說,Sora背後的AI模型通過分析大量視頻數據,學會了識別和理解各種物體與動作。輸入文本提示後,模型能夠迅速勾勒出整個場景的基本輪廓,並逐幀添加細節。

行業觀察人士和競爭對手,包括Runway的首席執行官,都認爲OpenAI的這些顯著成就歸功於其巨大的計算資源和龐大的訓練數據量。但OpenAI最近也面臨着版權侵犯的指控,因未經授權使用大量在線內容訓練其ChatGPT模型。

當被問及OpenAI爲訓練Sora使用了哪些數據時,穆拉蒂表示:“我們主要使用了公開可獲取的數據及已授權數據。”。當被進一步追問這些數據是否包括YouTube、Instagram和Facebook上的視頻時,穆拉蒂表示她並不清楚具體細節,但後來確認,已授權的材料確實包含了知名版權圖片網站Shutterstock上的內容。

人工智能模型對普通用戶來說往往是個神秘的黑匣子。我們看到的是輸入和輸出,而中間的處理過程則不得而知。因此,我們可能永遠無法完全理解爲何生成的內容展現出某些特定的風格或特徵。例如,斯特恩提到的那條美人魚身旁的甲殼類夥伴留着類似《海綿寶寶》中蟹老闆的鬍鬚,這是否是模型的創新還是某種偶然?

穆拉蒂還告訴斯特恩,當前Sora生成視頻的成本遠高於該公司的圖像生成器Dall-E。但她承諾,在Sora正式向公衆發佈前,團隊將對其進行優化,以降低計算資源消耗。

如何識別人工智能生成視頻?

在當前的早期階段,人工智能生成的內容中還存在一些明顯的瑕疵。

例如,在Sora生成的採訪視頻中,一位淺髮色女子的一隻手似乎多出了五根手指。對此,穆拉蒂解釋道:“準確再現手部運動真的很難。”

在另一次測試中,斯特恩期望看到一個機器人從電影製片人手中奪走攝像機的場景。但Sora生成的是一位人類電影製片人突變成機器人,場面顯得突兀且不自然。更有甚者,背景中的黃色出租車也不知怎的變成了銀色轎車。穆拉蒂承認模型“在維持連貫性方面表現尚可,但並不完美”。

這引出了一個深刻的議題:當這些缺陷得到修正,人工智能生成的視頻愈發逼真時,我們如何區分真實與人工智能生成的視頻?

Sora生成的每個視頻下方都會有一個水印。穆拉蒂解釋說,最終這些視頻還將包含元數據,以標示其生成方式和來源。此外,OpenAI設有一個名爲“Sora紅隊”的安全測試小組。該團隊的職責是提供各種提示,探索潛在的漏洞、偏見和其他可能的有害結果。穆拉蒂說:“這就是我們目前還沒有廣泛部署這些系統的原因。我們需要先弄清楚這些問題,然後才能放心地將其推向市場。”

就Sora的提示詞政策而言,穆拉蒂透露,它可能借鑑OpenAI的另一工具Dall-E的做法。例如,爲了防止濫用和侵犯隱私,用戶將無法使用Sora來生成公衆人物的形象。當斯特恩試圖輸入“在任美國總統的電視新聞畫面”時,Sora拒絕了這一請求。

斯特恩也嘗試讓Sora生成“在東歐小鎮上行走的士兵”的視頻,但也遭到了拒絕。對於裸露等敏感內容的提示,穆拉蒂表示OpenAI正在與藝術家和專家緊密合作,共同探討如何在不阻礙創意表現的同時,設立合理的“護欄和限制”。

將與好萊塢合作

隨技術發展,像Sora這樣的AI工具將變得更強大、更精細。這種進步可能會改變傳統的工作方式,如無人機操作員或插畫家的角色,引起好萊塢既期待又憂慮的反響。

演員、電影製片人和工作室老闆泰勒·佩裡(Tyler Perry)表示,看到Sora的潛力後,他宣佈暫停耗資8億美元的工作室擴建計劃。他認爲這項技術能夠削減佈景和外景拍攝的成本,但同時也對電影行業和演員的未來抱有擔憂。

代表好萊塢和全美各地動畫藝術家的動畫協會主席珍妮特·莫雷諾·金(Jeanette Moreno King)也稱,儘管藝術創作決策仍需人類參與和判斷力,未來卻是充滿不確定性的迷霧。

愛德華·薩奇(EdwardSaatchi)及其人工智能視頻工作室Fable正夢想打造一個AI版Netflix:僅需輸入一段文本提示,便可呈現完整的電視劇集。

對於Sora對視頻製作行業的潛在影響,穆拉蒂重申了OpenAI採取的緩步審慎策略。她表示,OpenAI正在與行業內部人士合作,進行早期的測試和反饋徵集,希望全球的電影製作者和創作者能加入這一探索過程,共同促進電影產業的發展。

如果將OpenAI比作一開始提到的那頭在瓷器店裡自由漫步的公牛,那麼它目前可能需要小心行事。但最終,它可能不可避免地將帶來一些破壞。(小小)