OpenAI刷屏的視頻模型,是怎麼做到這麼強的? 加载评论...
差評/格隆  2024-02-17 14:59



今天凌晨,OpenAI 發布了新的文生視頻大模型,名為 「 Sora 」。

Sora 模型可以生成最長 60 秒的高清視頻,生成的畫面可以很好的展現場景中的光影關係、各個物體間的物理遮擋、碰撞關係,並且鏡頭絲滑可變。

相信大家已經在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示視頻,由於生成內容的安全問題 Sora 還未開放測試,我們無法獲取更多差異化信息,所以知危編輯部在此不再重複展示 Sora 模型的效果。

下面,我們想重點探討為何 Sora 模型的效果看起來遠超市面上我們見過的其他文生視頻模型,他們都做了什麼?

示例視頻的生成提示詞為:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標誌。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,塗著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

首先,在文生視頻領域,比較成熟的模型思路有循環網路( RNN )、生成對抗網路( GAN )和擴散模型( Diffusion models ),而本次OpenAI 推出的 Sora 則是一種擴散模型。

雖然 GAN 模型之前一直很火,但圖像和視頻生成相關的領域,現在處於被擴散模型統治的階段。

因為擴散模型是有非常卓越的優越性的,相較於 GAN,擴散模型的生成多樣性和訓練穩定性都要更好。而最重要的是,擴散模型在圖片和視頻生成上有更高的天花板,因為 GAN 模型從原理上來看本質上是機器對人的模仿,而擴散模型則更像是機器學會了 「 成為一個人 」。

這麼說或許有些抽象,我們換一個不嚴謹但通俗好理解的例子:

GAN 模型像是一個勤奮的畫家,但不太受控制,因為畫家( 生成器 )一邊不停對著先作( 訓練源 )畫畫,然後另一邊老師( 判別器 )也不停打分。就在大戰無數個回合之後,畫家和老師瘋狂升級進步,最後直到畫家畫出逼真的畫,但整個過程不太好控制,經常練著練著就走火入魔,輸出一些誰也看不懂的玩意兒。同時,他的提升過程本質上是對先作的不斷模仿,所以他還缺乏創造力,導致天花板也潛在會比較低。

而擴散模型,則是一個勤奮且聰明的畫家,他並不是機械的仿作,而是在學習大量先作的時候,他學會了圖像內涵與圖像之間的關係,他大概知道了圖像上的 「 美 」 應該是什麼樣,圖像的某種 「 風格 」 應該是什麼樣,他更像是在思考,他是比 GAN 更有前途的畫家。

也就是說,OpenAI 選擇擴散模型這個範式來創造文生視頻模型,在當下屬於開了個好頭,選擇了一個有潛力的畫家來培養。

那麼,另一個疑問就出現了,由於大家都知道擴散模型的優越性,除了 OpenAI 以外,同樣在做擴散模型的還有很多友商,為什麼 OpenAI 的看起來更驚艷?

因為 OpenAI 有這樣一個思維:我曾經在大語言模型上獲得了非常好的效果、獲得了如此巨大的成功,那我有沒有可能參考這個經驗獲得一次新的成功呢?

答案是可以。

OpenAI 認為,之前在大語言模型上的成功,得益於 Token( 可以翻譯成令牌、標記、詞元都可,翻譯為詞元會更好理解一些 ),Token 可以優雅的把代碼、數學以及各種不同的自然語言進行統一進而方便規模巨大的訓練。於是,他們創造了對應 Token 的 「 Patche 」 概念( 塊,如果 Token 翻譯為詞元理解的話,Patche 或許可以被我們翻譯為 「 圖塊 」 )用於訓練 Sora 這個視頻模型。



實際上,在大語言模型中,Token 的應用之所以會如此成功,還得益於 Transformer 架構,他與 Token 是搭配著來的,所以 Sora 作為一個視頻生成擴散模型,區別於主流視頻生成擴散模型採用了 Transformer 架構。( 主流視頻生成擴散模型較多採用 U-Net 架構 )

也就是說,OpenAI 贏在了經驗與技術路線的選擇上。

但是,Transformer 架構這個 「 成功密碼 」人盡皆知,在文字、圖像生成上已經成為了主流,為什麼別人沒想著在視頻生成上用,OpenAI 就用了呢?

這源自另外一個問題:Transformer 架構中全注意力機制的內存需求會隨著輸入序列長度而二次方增長,所以處理視頻這樣的高維信號時,計算成本會非常非常高。

通俗點說,就是雖然用了 Transformer 效果會好,但所需的計算資源也是非常恐怖的,這麼做不是很經濟。

當然,OpenAI 雖然拿各種融資拿到手軟,但也依然沒那麼財大氣粗,所以他們並沒有直接猛砸資源,而是想了另外一種方式來解決計算成本高昂的問題。

這裡我們要先引入 「 latent 」 ( 潛 )這一概念,它是一種 「 降維 」 或者說是 「 壓縮 」,意在用更少的信息去表達信息的本質。我們列舉一個不恰當但好理解的例子,這就好像我們用一個三視圖就能保存記錄一個簡單的立體物體的結構,而非一定要保存這個立體本身。

OpenAI 為此開發了一個視頻壓縮網路,把視頻先降維到潛空間,然後再去拿這些壓縮過的視頻數據去生成 Patche,這樣就能使輸入的信息變少,有效減小 Transformer 架構帶來的計算量壓力。

如此一來,大部分問題就都解決了,OpenAI 成功地把文生視頻模型套進了其在過去取得巨大成功的大語言模型的範式里,所以效果想不好都難。

除此之外,OpenAI 在訓練上的路線選擇也稍有不同。他們選擇了 「 原始尺寸、時長 」 訓練,而非業內常用的 「 把視頻截取成預設標準尺寸、時長 」 后再訓練。

這樣的訓練給 Sora 帶來了諸多好處:

①生成的視頻能更好地自定義時長;

②生成的視頻能夠更好地自定義視頻尺寸;

③視頻會有更好的取景和構圖;

前兩點很好理解,第三點 OpenAI 給出了範例,他們做了一個截取尺寸視頻訓練和原始尺寸視頻訓練的模型對比:



左側為截取尺寸視頻訓練后模型生成的視頻。

右側為原始尺寸視頻訓練后模型生成的視頻。

另外,為了文生視頻能夠更好地理解用戶的意圖,達到更好的生成效果,OpenAI 也在 Sora 模型上加入了一些巧思。

首先,訓練 Sora 這樣的文生視頻模型,需要大量含有文本說明的視頻素材,所以 OpenAI 利用自家 DALL·E 3 的 re-captioning 功能,給訓練用的視頻素材都加上了高質量文本描述,他們表示這樣可以提高輸出視頻的整體質量。

除了訓練端,在輸入端他們也動了腦筋,用戶輸入的提示詞並非直接交給 Sora 進行生成的,OpenAI 利用了 GPT 的能力,在用戶給 Sora 輸入提示詞的時候,GPT 會先將用戶輸入的提示詞進行精準的詳盡擴寫,然後再將擴寫后的提示詞交給 Sora,這樣能更好地讓 Sora 遵循提示詞來生成更精準的視頻。

好了,到這裡,我們對 Sora 模型為什麼看起來更強的簡要解析就結束了。

從整體來看,你會發現 Sora 模型的成功並非偶然,他能有如此驚艷的效果,全都得益於 OpenAI 過去的工作,包括 GPT、DALL·E 等,有些是直接調用,有些是借用了思路。

或許我們可以說,OpenAI 自己先成為了一個巨人,然後再站在自己這個巨人的肩膀上,成為了一個新的巨人。

而相對應的是,無論國內還是國外的其他競爭對手,或許會因為文生文、文生圖上的技術差,在未來被甩的更遠。

所謂 「 彎道超車 」、「 差距只有 X 個月 」,或許是不存在的,只是自我安慰。

OpenAI炸裂升級!又一個行業被幹掉了

假期輕鬆愉快,沒太關注時事。

沒想到一覺醒來,朋友圈突然被一則新聞刷屏:OpenAI發布文生視頻模型Sora 。

好傢夥,瞬間給我拉回工作氛圍。

人們一直期待GPT-5,但Sora帶來的轟動不亞於GPT-5的發布。

之前大家還在關注,谷歌推出的Gemini能否殺死GPT4,全世界各大科技巨頭能否在這波AI浪潮中彎道超車。

現在,顯然沒人關注了。

因為OpenAI自己可能要用它先殺死GPT-4了。



我上官網(https://openai.com/sora)看了演示視頻,無論從視頻流暢度還是細節表現能力上,Sora的效果都相當驚艷。

難怪有人說:現實,不存在了。

比如官推里這條14秒的東京雪景: 美麗的,被雪覆蓋的東京正繁忙著。鏡頭穿過繁忙的城市街道,跟隨著幾個享受雪景和在附近攤位購物的人。美麗的櫻花瓣隨風飄落,與雪花一同飛舞。

儘管我們能感覺到,還有那麼一些不自然。但當素材用,已經足矣。



又比如下面這張對法令紋和痘印的刻畫,只要不去吹毛求疵,確實已經足夠真實。

說句不該說的,這張圖,至少看起來比坐在美顏前面的女主播們真實……



網友們也第n+1次紛紛哀悼起相關賽道的公司們:

「OpenAI就是不能停止殺死創業公司。」

「天哪,現在起我們要弄清什麼是真的,什麼是假的。」

「我的工作沒了。」

「整個影像素材行業被血洗,安息吧。」

……

01 現實與虛擬的界限

其實,文字生成視頻這回事,早就不新鮮了。

2023年8月,RunwayGen2正式推出,AI生成式視頻正式進入大眾視野。

到今年初,不計其數的產品一個接一個,PIKA、Pixverse、SVD、Genmo、Moonvalley……等等等等。

太多了,也太卷了。

我們能明顯感覺到,最近小半年刷的短視頻里,多了很多不自然的視頻。稍微品一品,就能察覺這肯定不是人工剪輯的。

首先,沒有超過4s的連貫鏡頭;其次,很不自然。

這些實用的工具,基本都是小公司出品的,功能並不完善。

說不完善都還算保守了,簡直就是漏洞百出。

視頻內容歸根結底,是對現實世界的還原。既然如此,那其中必然包含大量交互鏡頭——物與物、人與人、人與物,等等。

就像用攝像機拍出來的片段一樣。

我們看電影、看視頻,看的也是交互,相信沒幾個人喜歡看一個人的獨白。

比如,玻璃杯從桌子上摔到地上,它應該碎掉;像皮球摔到地上,它應該彈兩下。

但讓AI去合成這類場景,你就會發現,它並不會還原以上的物理現象。物體與物體碰撞或疊加到一起,AI只會讓其中一方變形。

這說明了一個關鍵問題: 過去的AI並不理解現實世界的規律。



不符合人類常識的視頻,能有多大市場呢?

不理解基礎物理的AI,它的上限能有多高?

想要解決這個問題,難不難?很難。

現在的AI大模型,雖然是模擬的人腦,但畢竟有所區別。

最本質的區別在於: AI 沒有想象力。

比如,你一巴掌扇在我臉上,面部肌肉如何顫動?把一顆魚雷扔進池塘,水面如何散開?

我們可以想象到後續會發生的事情,AI 不能。

無論它的參數堆得多高、計算速度再快,都不能。

即便是目前的Sora也做不到。

從各種演示例子中可以看到,雖然Sora 對自然語言有著深入的理解,能夠準確洞悉提示詞,生成表達豐富的內容,甚至可以創建多個鏡頭、保持角色和視覺風格的一致性。

但是,它依然無法準確模擬出複雜場景的物理現象,因為它不理解因果關係。

比如,人咬了一口餅乾,但餅乾上沒有咬痕;又或者混淆左右、不遵循特定的攝像軌跡;甚至無法理解,影子是人的影子還是物的影子……

如此一來的結果,便是合成有違物理常識的視頻。



既然如此,Sora到底牛在哪裡,為什麼這麼多人追捧它?

因為它其實做得足夠好了,至少比同行們好太多了。

用Fortune雜誌的話來說就是: 將生成式AI之戰轉移到了好萊塢。

用官網的話來說,它能夠生成包含多種角色和特定類型的運動,主體和背景細節準確;還能理解事物在物理世界的存在方式。

簡單來說,它雖然還不能理解需要想象力的因果律,但最基本的現實場景,它是可以還原的。

AI生成視頻這一條賽道,誕生至今還不到1年,我們確實不能要求太高。

如果把上文描述的內容當做終結目標,把去年至今的一系列生成工具作為雛形,Sora大概處在兩者之間。

它是如何做到的?

02 誰站在巨人肩上?

Sora主要採用了兩種技術。

一個是擴散模型(diffusion model),原本是用於文字轉圖片的。

簡單來講,是先生成一張全是noise(雜訊)的圖片,與目標圖片的vector尺寸相同(比如目標圖片是256*256,初始sample圖片也要是256*256),然後經過若干次denoise(去雜訊),讓圖片逐步成型。

問題在於,大模型怎麼知道去除什麼?保留什麼?



當然需要訓練。

研究人員得先用清晰的圖片,一步一步加雜訊進去,如下圖。

這是上圖的逆序,即反向擴散。



看懂了上面兩個步驟,你才能理解MIT Technology Review究竟在說啥:

Sora的團隊使用了DALL-E 3背後的技術,即擴散模型。擴散模型經過訓練后可以將模糊的隨機像素變成圖片。

其原理並不複雜,但需要時間和人力成本。

另一項技術是Transformer的神經網路,就是GPT(Generative Pre-Trained Transformer)中的T。

但是,Transformer 架構人盡皆知,在文字、圖像生成上已經成為主流,為什麼別人沒想著在視頻生成上用,就OpenAI 用了呢?

用技術的話來說: Transformer 架構中,全注意力機制的內存需求會隨著輸入序列長度而二次方增長。

說人話就是: 計算成本太高了。

即便OpenAI背靠微軟,各種融資拿到手軟,也不願意這樣燒錢。

所以他們開發了一個視頻壓縮網路,先把視頻數據降維到latent(潛空間),再將壓縮過的數據生成 Patche,這樣就能使輸入的信息變少,有效減小計算量壓力。



然後,為了讓大模型更好理解用戶的意思,OpenAI 直接把文生視頻模型套進已經得到市場認可的GPT模型範式中,這就是它獨有的優勢了。

使用者輸入的提示詞,並非直接交給Sora,而是先讓成熟的GPT將文本進行精準詳細的擴寫。

Sora再根據GPT提供的詳細文本,逐幀生成更準確的視頻。

說實話,個人認為,這才是Sora有別於其他模型的最大優勢。

其他團隊即便能解決其他步驟,但沒有成熟的大模型,也是白搭。

整體上看,Sora的成功幾乎是水到渠成的。

它能有如今驚艷的表現,基本全部得益於OpenAI過去的成果,有些是借用了思路,有些則是不可或缺的基本架構。

這就是所謂的先發優勢了,它不僅僅體現在老生常談的壟斷問題上面。

一生二、二生三、三才生萬物。

反觀OpenAI此時此刻全世界的各大競爭對手,無一例外全部卡在文生文、文生圖上。

更有甚者,連一都沒有的,還是老老實實抓緊做底層。不然等先發者三生萬物了,真的是什麼都晚了。

我們能明顯感覺到,AI比過去任何行業的迭代都要快。

也許,這個技術差只要維持兩年,就會變成永遠無法逾越的鴻溝。

所謂「差距只有幾個月」、「彎道超車」,基本是不存在的。

03 尾聲

正如上文所說,Sora目前仍有很大缺陷。

它能生成複雜、精美且足夠長的視頻,這證明AI在理解現實世界的能力上有相當大的提升。

但這種提升,依然基於大量的訓練,而不是AI本身對世界的理解。Sora對視頻的處理依舊是有很多局限性,甚至包括很基本的事實錯誤。

所以Sora給人的感覺雖然震撼,但還稱不上這兩天熱烈討論的「世界模型」。

所謂「現實不存在了」,絕對不是指現在。

但未來說不準。

在我們普通人眼中,Sora就是個文生視頻模型。它的出現,意味著大多數影視、視頻製作從業人員,即將失業。

但對OpenAI團隊而言,並不僅此而已——這必然是他們構建AGI(通用人工智慧)的重要環節。

AGI與世界的交互不僅體現在文字、圖片和語音等形式上,還有更直接的視覺視頻,這也是人類自古以來認知和理解世界最重要的方式。

所以生成視頻、理解視頻和理解物理世界,是未來AGI必備能力之一。

此時此刻,我們還能想象得到,生成式AI會對影視、遊戲製作行業造成天翻地覆的影響。

等到通用人工智慧問世的那一刻,AI到底能做什麼、會對世界造成多大的影響?

所有人都能想象到的,是必然會應用到具身智能,也就是機器人上。

但除此之外呢?抱歉,想象力有限,真的想象不出來。

或許,AI真的就是全人類期待了幾十年的那個技術奇點。你知道某些事情會發生,但無法想象究竟是什麼事。(如果能想象,那也就不叫奇點了)

只能祈禱,未來是星辰大海,商機遍地。