亚洲精品少妇久久久久久海角社区,色婷婷亚洲一区二区综合,伊人蕉久中文字幕无码专区,日韩免费高清大片在线

賬號密碼登錄
驗證碼登錄
微信登錄

忘記密碼注冊新用戶

賬號申訴

忘記密碼注冊新用戶

賬號申訴

登陸成功

積分

首頁

揭秘Sora：用大語言模型的方法理解視頻，實現(xiàn)了對物理世界的“涌現(xiàn)”

來源：硅星人Pro 作者：苗正王兆洋 2024-02-20 2035閱讀

[羅戈導讀]解讀Sora背后的技術(shù)。

p202402/19/wPp6G7v8Bi.png

當全球還沉迷在如何用文本生成文本，以及文本生成圖片的時候，OpenAI就這么掏出來了一個視頻生成模型Sora。有關(guān)Sora的具體介紹和效果展示可以看我們昨天的文章《OpenAI Sora問世，通往AGI的又一個ChatGPT時刻！GPT4可能也要被干掉了》。簡單來講，這是一個能夠根據(jù)文本指令或靜態(tài)圖像生成長達1分鐘視頻的擴散模型，而且視頻中還包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動——它做到了目前市面上視頻模型做不到的東西。

那么Sora是如何做到的？在昨天的文章中，我們曾第一時間基于僅有的信息給出了一個判斷：

簡單粗暴的理解，就是語言能力足夠強大之后，它帶來的泛化能力直接可以學習圖像視頻數(shù)據(jù)和它體現(xiàn)出的模式，然后還可以直接用學習來的圖像生成模型最能理解的方式，給這些利用了引擎等已有的強大而成熟的視頻生成技術(shù)的視覺模型模塊下指令，最終生成我們看到的逼真而強大的對物理世界體現(xiàn)出“理解”的視頻。

而之后OpenAI發(fā)布了Sora的技術(shù)報告：《Video generation models as world simulators》（視頻生成模型作為世界模擬器），其中介紹的技術(shù)思路基本印證了我們上面的判斷。

接下來我們一起來基于有限但足夠信息豐富的技術(shù)報告來解讀一下Sora背后的技術(shù)。

用大語言模型的方法理解視頻

Sora的設(shè)計靈感來自于大語言模型，最主要的原因是大語言模型有一個核心功能是通過代碼將多種文本形式進行了統(tǒng)一。而OpenAI為了訓練出Sora，他們的做法也是將各類視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示的方法。

不過在正式了解Sora之前，我們需要先科普一個概念——塊（patches）。有點類似于大語言模型中的token，塊指的是將圖像或視頻幀分割成的一系列小塊區(qū)域。這些塊是模型處理和理解原始數(shù)據(jù)的基本單元。

對于視頻生成模型而言，塊不僅包含了局部的空間信息，還包含了時間維度上的連續(xù)變化信息。模型可以通過學習patches之間的關(guān)系來捕捉運動、顏色變化等復雜視覺特征，并基于此重建出新的視頻序列。這樣的處理方式有助于模型理解和生成視頻中的連貫動作和場景變化，從而實現(xiàn)高質(zhì)量的視頻內(nèi)容生成。

OpenAI又在塊的基礎(chǔ)上，將其壓縮到低維度潛在空間，再將其分解為“時空塊”（spacetime patches）。

p202402/19/Z3TMJtIs8e.png

暈了是不是，別急，一個一個解釋。潛在空間是一個3年前出現(xiàn)的概念，是指一個高維數(shù)據(jù)通過某種數(shù)學變換（如編碼器或降維技術(shù)）后所映射到的低維空間，這個低維空間中的每個點通常對應于原始高維數(shù)據(jù)的一個潛在表示或抽象特征向量。但是呢，優(yōu)化強大的擴散模型往往需要消耗數(shù)百個GPU日的計算資源，并且由于其序列評估性質(zhì)，推理成本較高。因此，本質(zhì)上來講潛在空間，就是一個能夠在復雜性降低和細節(jié)保留之間達到近乎最優(yōu)的平衡點，極大地提升了視覺保真度。

時空塊則是指從視頻幀序列中提取出的、具有固定大小和形狀的空間-時間區(qū)域。相較于塊而言，時空塊強調(diào)了連續(xù)性，模型可以通過時空塊來觀察視頻內(nèi)容隨時間和空間的變化規(guī)律。

為了制造這些時空塊，OpenAI訓練了一個網(wǎng)絡(luò)，用于降低視覺數(shù)據(jù)的維度，叫做視頻壓縮網(wǎng)絡(luò)。這個網(wǎng)絡(luò)接受原始視頻作為輸入，并輸出一個在時間和空間上都進行了壓縮的潛在表示。Sora在這個壓縮后的潛在空間中進行訓練和生成視頻。同時，OpenAI還也訓練了一個相應的解碼器模型，用于將生成的潛在向量映射回像素空間。

剛才咱們也聊了，說這個“塊”是非常接近token的，那么這些塊的作用也應該和token差不太多。對于給定的壓縮輸入視頻，OpenAi就直接提取一系列塊作為Transformer token使用，然后這些時空塊會被進一步編碼并傳遞給Transformer網(wǎng)絡(luò)進行全局自注意力學習。最后利用Transformer的強大能力來處理并生成具有不同屬性的視頻內(nèi)容。

這一方案同樣適用于圖像，因為圖像可以看作是僅有一幀的視頻。基于塊的表示方法使得Sora能夠?qū)Σ煌直媛?、時長和寬高比的視頻和圖像進行訓練。在推理階段，可以通過在一個適當大小的網(wǎng)格中排列隨機初始化的塊來控制生成視頻的尺寸。

此外，在Sora模型的介紹頁面雖然提到的都是通過文本來生成視頻，但Sora還能夠接受其他類型的輸入，比如圖像或視頻，以達到圖片生成視頻、視頻生成視頻的效果。這一特性使得Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)——例如制作完美循環(huán)播放的視頻、為靜態(tài)圖像添加動畫效果、向前或向后延展視頻時間軸等。

實現(xiàn)對物理世界的“涌現(xiàn)”

在長期的訓練中OpenAI發(fā)現(xiàn)sora模型逐漸擁有了一項新能力，叫做三維一致性。指的是Sora能夠生成動態(tài)視角的視頻。同時隨著視角的移動和旋轉(zhuǎn)，人物及場景元素在三維空間中仍然保持一致的運動狀態(tài)。

p202402/19/rv8ow5rEj8.png

這個可能對咱們?nèi)祟悂碚f沒什么，但是對于人工智能來說，還是相當厲害的。人工智能理解三維物理世界，跟人類理解三維物理世界的方式不一樣，它采用了一種拓撲結(jié)構(gòu)上的理解。注意，這里的拓撲結(jié)構(gòu)不是計算機的拓撲結(jié)構(gòu)，而是拓撲學中的拓撲結(jié)構(gòu)。拓撲結(jié)構(gòu)是一個幾何或空間的抽象描述，用于描述集合中元素之間的連接方式和空間屬性，而不考慮具體的度量或形狀。它關(guān)注的是空間中點與點之間的連通關(guān)系以及空間的整體形狀，而不是具體尺寸或角度等細節(jié)。

除此之外，既然視頻的視角發(fā)生變化，那么相應的紋理映射也要改變。Sora的真實感非常強，換句話說，紋理映射在拓撲結(jié)構(gòu)上就得非常準確。三維一致性能力使Sora能夠模擬來自現(xiàn)實世界中人物、動物和環(huán)境的某些方面。

一個讓人興奮中帶著點害怕的消息是，這些屬性并非通過為3D、物體等添加明確的歸納偏置而產(chǎn)生——它們純粹是規(guī)模效應的現(xiàn)象。也就是說，是Sora自己根據(jù)訓練的內(nèi)容，判斷出了現(xiàn)實世界中的一些物理客觀規(guī)律，某種程度上，人類如果僅僅是通過肉眼觀察，也很難達到這樣的境界。

還有一點，視頻生成系統(tǒng)面臨的一項重大挑戰(zhàn)是在生成長視頻時保持時間上的連貫性。而Sora也能夠有效地模擬短程和長程依賴關(guān)系。例如，即使人物、動物或物體被遮擋或離開畫面，Sora仍能保持這些元素存在于視線外，等到視角轉(zhuǎn)換到能看到他們的時候，再將這些內(nèi)容展現(xiàn)出來。同樣的，它能夠在單個樣本中生成同一角色的多個鏡頭，并在整個視頻中保持其外觀的一致性。

事實上這點倒沒有什么，因為Sora是從transformer模型中孕育的，而transformer模型本身就能通過全局自注意力機制等技術(shù)來實現(xiàn)很高的連續(xù)性。Sora只不過是從視頻方面闡述了這種連續(xù)性而已。

對此，OpenAI得出了一個結(jié)論：視頻生成模型是構(gòu)建通用物理世界模擬器的一條有前景的道路。

Sora目前所展現(xiàn)的能力表明，它是能通過觀察和學習來了解物理規(guī)律。就Sora的這個理解力，說句實在的比我都強，老師在上面講課，我只能做到眼睛會了，腦子不會。

不過Sora當前作為一個模擬器存在許多局限性。在OpenAI的主頁上，他們列舉了該模型的一些常見失效模式，比如在長時間采樣中可能出現(xiàn)的不連貫現(xiàn)象，以及物體無端出現(xiàn)等異常情況。從現(xiàn)有的結(jié)果來看，它還無法準確模擬許多基本交互的物理過程，像是玻璃破碎，以及其他類型的交互，比如吃食物。物體狀態(tài)的變化并不總是能夠得到正確的模擬，這說明很多現(xiàn)實世界的物理規(guī)則是沒有辦法通過現(xiàn)有的訓練來推斷的。

p202402/19/cTH8rQ0kX7.png

這些是這篇技術(shù)報告里最核心的信息，一如既往的，OpenAI在模型和實現(xiàn)細節(jié)方面繼續(xù)保持Close，不過，在報告中，OpenAI在不停提到“大力出奇跡”的效果：

關(guān)于涌現(xiàn)，它寫道：我們發(fā)現(xiàn)，當大規(guī)模地進行訓練時，視頻模型展現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使得Sora能夠模擬現(xiàn)實世界中人類、動物和環(huán)境的某些方面。這些屬性并沒有任何針對3D、物體等的明確歸納偏見——它們純粹是規(guī)模效應的現(xiàn)象。

OpenAI顯然在把Sora描述成它一直堅持的Scaling law的又一次勝利——沒有多么純粹原創(chuàng)的技術(shù)，很多技術(shù)成分早已存在，但它卻比所有人都更篤定的走了下去，并用足夠多的資源在巨大的規(guī)模上驗證了它。

p202402/19/qpV3L3PNdY.png