Sora官方技術報告：它到底有多強？

長江商學院MBA 2024-02-22 浏覽量: 3833 [簡/繁]

OpenAI 2月16日淩晨發布了文生視頻大模型Sora，在科技圈引起一連串的震驚和感歎，在2023年，我們見證了文生文、文生圖的進展速度，視頻可以說是人類被AI攻占最慢的一塊“處女地”。而在2024年開年，OpenAI就發布了王炸文生視頻大模型Sora，它能夠僅僅根據提示詞，生成60s的連貫視頻，“碾壓”了行業目前大概隻有平均“4s”的視頻生成長度。

可以說，Sora的出現，預示着一個全新的視覺叙事時代的到來，它能夠将人們的想象力轉化為生動的動态畫面，将文字的魔力轉化為視覺的盛宴。在這個由數據和算法編織的未來，Sora正以其獨特的方式，重新定義着我們與數字世界的互動。

一反常态，OpenAI在模型公布後的不久，就公布了相關的技術Paper，今天與你分享這篇技術報告，希望能夠幫助大家理解到底有哪些神奇的技術，讓Sora能夠有如此強大的魔力。

為了方便理解，這個模型的強大之處可以簡單總結為以下6點：

1.文本到視頻生成能力：Sora能夠根據用戶提供的文本描述生成長達60S的視頻，這些視頻不僅保持了視覺品質，而且完整準确還原了用戶的提示語。

2.複雜場景和角色生成能力：Sora能夠生成包含多個角色、特定運動類型以及主題精确、背景細節複雜的場景。它能夠創造出生動的角色表情和複雜的運鏡，使得生成的視頻具有高度的逼真性和叙事效果。

3.語言理解能力：Sora擁有深入的語言理解能力，能夠準确解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令，并在生成的視頻内容中忠實地反映這些指令。

4.多鏡頭生成能力：Sora可以在單個生成的視頻中創建多個鏡頭，同時保持角色和視覺風格的一緻性。這種能力對于制作電影預告片、動畫或其他需要多視角展示的内容非常有用。

5.從靜态圖像生成視頻能力：Sora不僅能夠從文本生成視頻，還能夠從現有的靜态圖像開始，準确地動畫化圖像内容，或者擴展現有視頻，填補視頻中的缺失幀。

6.物理世界模拟能力：Sora展示了人工智能在理解真實世界場景并與之互動的能力，這是朝着實現通用人工智能（AGI）的重要一步。它能夠模拟真實物理世界的運動，如物體的移動和相互作用。

OpenAI文生視頻模型Sora官方技術報告

我們探索了利用視頻數據對生成模型進行大規模訓練。具體來說，我們在不同持續時間、分辨率和縱橫比的視頻和圖像上聯合訓練了以文本為輸入條件的擴散模型。我們引入了一種transformer架構，該架構對視頻的時空序列包和圖像潛在編碼進行操作。我們最頂尖的模型Sora已經能夠生成最長一分鐘的高保真視頻，這标志着我們在視頻生成領域取得了重大突破。我們的研究結果表明，通過擴大視頻生成模型的規模，我們有望構建出能夠模拟物理世界的通用模拟器，這無疑是一條極具前景的發展道路。

這份技術報告主要聚焦于兩大方面：首先，我們詳細介紹了一種将各類可視數據轉化為統一表示的方法，從而實現了對生成式模型的大規模訓練；其次，我們對Sora的能力及其局限性進行了深入的定性評估。需要注意的是，本報告并未涉及模型的具體技術細節。

在過去的研究中，許多團隊已經嘗試使用遞歸網絡、生成對抗網絡、自回歸Transformer和擴散模型等各種方法，對視頻數據的生成式建模進行了深入研究。然而，這些工作通常僅限于較窄類别的視覺數據、較短的視頻或固定大小的視頻上。相比之下，Sora作為一款通用的視覺數據模型，其卓越之處在于能夠生成跨越不同持續時間、縱橫比和分辨率的視頻和圖像，甚至包括生成長達一分鐘的高清視頻。

将可視數據轉換成數據包（patchs）

在可視數據的處理上，我們借鑒了大語言模型的成功經驗。這些模型通過對互聯網規模的數據進行訓練，獲得了強大的通用能力。同樣，我們考慮如何将這種優勢引入到可視數據的生成式模型中。大語言模型通過token将各種形式的文本代碼、數學和自然語言統一起來，而Sora則通過視覺包（patchs）實現了類似的效果。我們發現，對于不同類型的視頻和圖像，包是一種高度可擴展且有效的表示方式，對于訓練生成模型具有重要意義。

在更高層次上，我們首先将視頻壓縮到一個低維度的潛在空間:這是通過對視頻進行時間和空間上的壓縮實現的。這個潛在空間可以看作是一個“時空包”的集合，從而将原始視頻轉化為這些包。

視頻壓縮網絡

我們專門訓練了一個網絡，專門負責降低視覺數據的維度。這個網絡接收原始視頻作為輸入，并輸出經過壓縮的潛在表示。Sora模型就是在這個壓縮後的潛在空間中接受訓練，并最終生成視頻。此外，我們還設計了一個解碼器模型，它可以将生成的潛在表示重新映射回像素空間，從而生成可視的視頻或圖像。

時空包

當給定一個壓縮後的輸入視頻時，我們會從中提取出一系列的時空包，這些包被用作轉換token。這一方案不僅适用于視頻，因為視頻本質上就是由連續幀構成的，所以圖像也可以看作是單幀的視頻。通過這種基于包的表示方式，Sora能夠跨越不同分辨率、持續時間和縱橫比的視頻和圖像進行訓練。在推理階段，我們隻需在适當大小的網格中安排随機初始化的包，就可以控制生成視頻的大小和分辨率。

用于視頻生成的縮放Transformers

Sora是一個擴散模型，它接受輸入的噪聲包（以及如文本提示等條件性輸入信息），然後被訓練去預測原始的“幹淨”包。重要的是，Sora是一個基于擴散的轉換器模型，這種模型已經在多個領域展現了顯著的擴展性，包括語言建模、計算機視覺以及圖像生成等領域。

在這項工作中，我們發現擴散轉換器在視頻生成領域同樣具有巨大的潛力。我們展示了不同訓練階段下，使用相同種子和輸入的視頻樣本對比，結果證明了随着訓練量的增加，樣本質量有着明顯的提高。

豐富的持續時間、分辨率與縱橫比

過去，圖像和視頻生成方法常常需要将視頻調整大小、裁剪或修剪至标準尺寸，如4秒、256x256分辨率的視頻。但Sora打破了這一常規，它直接在原始大小的數據上進行訓練，從而帶來了諸多優勢。

采樣更靈活

Sora具備出色的采樣能力，無論是寬屏1920x1080p視頻、垂直1080x1920視頻，還是介于兩者之間的任何視頻尺寸，它都能輕松應對。這意味着Sora可以為各種設備生成與其原始縱橫比完美匹配的内容。更令人驚歎的是，即使在生成全分辨率内容之前，Sora也能以較小的尺寸迅速創建内容原型。而所有這一切，都得益于使用相同的模型。

改進構圖與框架

我們的實驗結果顯示，在視頻的原始縱橫比上進行訓練，能夠顯著提升構圖和框架的質量。為了驗證這一點，我們将Sora與一個将所有訓練視頻裁剪為方形的模型版本進行了比較。結果發現，在正方形裁剪上訓練的模型有時會生成僅部分顯示主題的視頻。而Sora則能呈現出更加完美的幀，充分展現了其在視頻生成領域的卓越性能。

語言理解深化

為了訓練文本轉視頻生成系統，需要大量帶有相應文本字幕的視頻。為此，我們借鑒了DALL·E3中的re-captioning技術，并應用于視頻領域。首先，我們訓練了一個高度描述性的轉譯員模型，然後使用它為我們訓練集中的所有視頻生成文本轉譯。通過這種方式，我們發現對高度描述性的視頻轉譯進行訓練，可以顯著提高文本保真度和視頻的整體質量。

與此同時，與DALL·E3類似，我們還利用GPT技術将簡短的用戶提示轉換為更長的詳細轉譯，并将其發送到視頻模型。這一創新使得Sora能夠精确地按照用戶提示生成高質量的視頻。

在上述所有結果和我們的演示中，你可能已經注意到了文本轉視頻的示例。但Sora的功能遠不止于此，它還能接受其他類型的輸入提示，如預先存在的圖像或視頻。這種多樣化的提示方式使Sora能夠執行廣泛的圖像和視頻編輯任務，如創建完美的循環視頻、将靜态圖像轉化為動畫、向前或向後擴展視頻等。

将DALL·E圖片變成動畫

值得一提的是，Sora還能在提供圖像和提示作為輸入的情況下生成視頻。下面展示的示例視頻就是基于DALL·E 2和DALL·E 3的圖像生成的。這些示例不僅證明了Sora的強大功能，還展示了它在圖像和視頻編輯領域的無限潛力。

擴展生成視頻

Sora不僅具備生成視頻的能力，更能在時間維度上實現向前或向後的無限擴展。以下三個視頻便是從同一生成視頻片段出發，逐步向後擴展的示例。盡管它們的起始部分各異，但結局卻出奇地一緻。這充分展示了Sora在時間擴展方面的強大功能，甚至能創造出無縫的無限循環視頻。

視頻到視頻編輯

随着擴散模型的發展，我們已經開發出多種方法來編輯基于文本提示的圖像和視頻。在此，我們将其中一種名為SDEdit 32的技術應用于Sora。這項技術賦予了Sora轉換零拍攝輸入視頻風格和環境的能力，為視頻編輯領域帶來了革命性的變革。

視頻的無縫連接

更令人驚歎的是，Sora還能在兩個截然不同的輸入視頻之間實現無縫過渡。通過逐漸插入技術，我們能夠在具有完全不同主題和場景構圖的視頻之間創建出流暢自然的過渡效果。

圖片生成能力

Sora的出色能力不止于數據處理和分析，它現在還能生成圖像！這一創新功能的實現得益于一種獨特的算法，該算法在一個精确的時間範圍内，巧妙地在空間網格中排列高斯噪聲補丁。

值得一提的是，Sora的圖像生成功能不僅限于特定大小的圖像。它可以根據用戶需求，生成可變大小的圖像，最高可達驚人的2048 × 2048分辨率。

新的模拟能力

在大規模訓練過程中，我們發現視頻模型展現出了許多令人興奮的新能力。這些功能使得Sora能夠模拟現實世界中的人物、動物和環境等某些方面。值得注意的是，這些屬性的出現并沒有依賴于任何明确的3D建模、物體識别等歸納偏差，而是純粹通過模型的尺度擴展而自然湧現的。

3D一緻性：在3D一緻性方面，Sora能夠生成帶有動态攝像頭運動的視頻。随着攝像頭的移動和旋轉，人物和場景元素在三維空間中始終保持一緻的運動規律。

較長視頻的連貫性和對象持久性：視頻生成領域面對的一個重要挑戰就是，在生成的較長視頻中保持時空連貫性和一緻性。Sora，雖然不總是，但經常能夠有效地為短期和長期物體間的依賴關系建模。例如，在生成的視頻中，人物、動物和物體即使在被遮擋或離開畫面後，仍能被準确地保存和呈現。同樣地，Sora能夠在單個樣本中生成同一角色的多個鏡頭，并在整個視頻中保持其外觀的一緻性。

與世界互動：

Sora有時還能以簡單的方式模拟影響世界狀态的行為。例如，畫家可以在畫布上留下新的筆觸。随着時間的推移，一個人吃漢堡時也能在上面留下咬痕。

模拟數字世界：Sora還能夠模拟人工過程，比如視頻遊戲。它可以在高保真度渲染世界及其動态的同時，用基本策略控制《我的世界》中的玩家。這些功能都無需額外的訓練數據或調整模型參數，隻需向Sora提示“我的世界”即可實現。

這些新能力表明，視頻模型的持續擴展為開發高性能的物理和數字世界模拟器提供了一條充滿希望的道路。通過模拟生活在這些世界中的物體、動物和人等實體，我們可以更深入地理解現實世界的運行規律，并開發出更加逼真、自然的視頻生成技術。

局限性與展望

盡管Sora在模拟能力方面已經取得了顯著的進展，但它目前仍然存在許多局限性。例如，它不能準确地模拟許多基本相互作用的物理過程，如玻璃破碎等。此外，在某些交互場景中，比如吃東西時，Sora并不能總是産生正确的對象狀态變化。我們在發布頁面中列舉了模型的其他常見故障模式，包括在長時間樣本中發展的不一緻性或某些對象不受控的出現等。

然而，我們相信随着技術的不斷進步和創新，Sora所展現出的能力預示着視頻模型持續擴展的巨大潛力。未來，我們期待看到更加先進的視頻生成技術，能夠更準确地模拟現實世界中的各種現象和行為，并為我們帶來更加逼真、自然的視覺體驗。

圈内人如何看Sora？

最後再來看看各位技術大牛和内容行業從業者如何評價Sora？

馬斯克評OpenAI視頻模型：人類認賭服輸，但AI增強的人類将創造出最好作品

OpenAI周四發布了首個視頻生成模型Sora。馬斯克的前女友格萊姆斯發布了一連串帖子，讨論這項新技術對電影以及更廣泛的藝術創作的影響。

馬斯克在其中一條帖子下回應稱：

“AI增強的人類将在未來幾年裡創造出最好的作品。”

值得注意的是，馬斯克和格萊姆斯在過去大約半年時間裡一直在就他們三個子女的撫養權問題對薄公堂。兩人之間在X平台上這次罕見的互動引發了人們對他們目前關系狀态的猜測。

稍早，一位X用戶分享了Sora生成的一名女子在東京街頭漫步的視頻，并評論稱：“OpenAI今天宣布了Sora，它使用混合擴散和變壓器模型架構生成長達1分鐘的視頻。他們似乎又領先了其他所有人1-2年。”另一位X用戶評論稱：“gg皮克斯。”

馬斯克回應稱：“gg人類。”（注：gg是網絡遊戲用語“good games”的縮寫，主要用于遊戲結束後，輸赢雙方都可以用，但現在多由失敗方發出，表示認賭服輸、心服口服的意思）在馬斯克帖子的評論區裡，還有用戶附和道：“gg好萊塢”。

Jim Fan感歎：Sora是一個數據驅動的物理引擎

英偉達人工智能研究院Jim Fan表示“如果你還是把Sora當做DALLE那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。”Jim Fan大神的言下之意是，我們不能忽略Sora背後，“世界模型”更進一步，AI已經可以讀懂物理規律。

YouTube大V ：動畫師和3D藝術家的工作可能有危險了

YouTube大V Paddy Galloway感慨：“内容創作永遠改變了。這不是誇張。我在YouTube世界已經15年了，OpenAI剛剛展示的東西讓我說不出話來…”他認為，Sora将帶來以下這些改變：

動畫師和3D藝術家的工作可能有危險了庫存素材網站将變得無關緊要

任何人都可以立即擁有出色的B-roll（輔助鏡頭）

制作精美視頻的門檻降至零

在一個每個人都能制作出美麗視頻的世界裡，内容背後的“想法”和故事變得更加重要

Sora将真正颠覆教育、視頻論文和解說視頻的細分市場

AI創業公司創始人：五年之後，你将能夠生成完全沉浸式的世界，并實時體驗它們

Takeoff AI是專注于AI Tools的創業公司，它的創始人認為這一波OpenAI新技術的最大受益者可能是虛拟現實。“在兩周内，我們連續有了蘋果的Vision Pro和OpenAI的Sora文本到視頻AI模型。五年之後，你将能夠生成完全沉浸式的世界，并實時體驗它們。Holodeck（應該是指今年火爆的掌機Steamdeck的虛拟現實版本）很快就要來了。”

除了這些技術上的猜測和對産業影響的正面預測外，也有老反對派指出Sora的潛在問題不那麼容易糾正。

Gary Marcus：Sora奇怪的物理故障可能不是數據中出現的

紐約大學教授Gary Marcus以其對AI領域的深刻見解和對現有技術的批判性思考而聞名，他的觀點和研究對AI社區産生了重要影響。他表示“Sora奇怪的物理故障（例如動物和人在人群中自發出現和消失）令人着迷：這些錯誤可能不是數據中出現的。這種小故障在某些方面類似于LLM“幻覺”，即從有損壓縮中（大緻）解壓縮産生的僞影，而不是來自這個世界的東西。”