OpenAI sora视频生成模型技术报告！对动画领域有什么影响？

Original wuhu小精灵 wuhu动画人空间 2024-04-20

wuhu专题

文 | Eddy Chen（陈刘芳）

北京大学艺术学院

数字媒体艺术、动画、

人工智能艺术实验创作研究者

想必最近大家都被她刷屏了

AI能代替创作者吗？

Sora还存在哪些局限性？

AI能模拟世界吗？

OpenAI发布Sora后引起了大家广发的关注，视频生成是Sora的能力之一，但这并不是Sora的全部，理解真实的物理世界，并能够模拟和创造才是，而且视频的创作，是能够展现最多模态能力的内容领域，也是能够产生高价值内容的重要途径。通过研究Sora相关的案例和技术文档，可以发现OpenAI研究的目标在于——构建物理世界通用模拟器。

Sora是如何能够做让大家惊艳的表现的？

在官方技术文档中透露了几项关键技术信息，具体包括以下几点：

▹ Sora的底层是基于Transformer 架构的扩散模型。

▹ 训练Sora需要把所有视觉类的数据都转换为patch，在低维度空间进行Sora的训练和推理，再通过解码器转会回像素空间。

▹ 为视频生成训练引入重新标注技术，对训练集内的视频和Prompt的语言理解能力更强。

▹ 涌现了新的模拟能力，包括3D一致性、长时间的相关性和物体一致性，以及与世界互动。

▹ 控制Sora模型生成内容主要有几种方式：分别是文本生成视频、图片生成视频、视频编辑、视频连接、图片生成等，其中demo效果最丰富的当属文本生成视频。

我们通过下面这个例子直观的感受一下：

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

提示词：一部电影预告片，展示了一个30岁的太空人，他戴着一顶红色羊毛编织的摩托车头盔，蓝天、盐沙漠，以电影风格拍摄，采用35毫米胶片，色彩鲜艳。

这短短17秒的视频包含了哪些信息量呢？

第一镜，主角近景，包括红色羊毛编织的摩托车头盔、蓝天和由盐组成的沙漠环境都被准确表现出来。

第二镜，从蓝色摇到了远景的人，再到特写出现主角的眼神，角色设定和第一镜保持了一致，包括五官特征，毛线帽和头盔上33的标记都能够验证这一点，此时人物的位置关系是带着33号头盔的主角站在了远景角色的反方向。

第三镜，出现了一个带头盔的稍年轻的角色，胡子也短了不少，他似乎是在飞船内部向外看。

第四镜，镜头跟随远景的角色向前推，画面中出现的清晰的脚印。

第五镜，飞船内的年轻角色似乎发现了有人正在走近飞船，特写推的更近了，暗示有变化会发生。

第六镜，特写舱门，手从右侧入画。

第七镜，特写主角眼神，增加紧张感。

第八镜，特写主角侧面，此时他站在原地，看向另一侧。第九镜，太空仓内环境，各类仪表、屏幕清晰可辨。
三个先后出现的角色一致，位置关系一致，环境一致，拍摄手法一致，全程镜头都保持了手持摄影机的摇晃感，输出1920*1080，30帧/秒的高清视频。
通过上面的段落可以对Sora的能力有一个直观感受，17秒的视频段落中提供给观众的充分的信息量，其中包括的我们在表面看到的信息，如角色、场景、动作等，也包括隐藏的信息，如主角所在的蓝色和盐漠所在空间的前后一致的表现，对人物进入太空舱内的空间在展现，甚至组成这组镜头的时空关系，拍摄角度等，这些排列组合带来AI生成内容质量的显著提升。

目前只有OpenAI定向邀请的红队专家拥有产品测试资格，我们可以从目前发布的一些案例中了解Prompt的写作方式，发现一些规律，比如主体+动作+环境的自然语言描述方法，这个环节可以充分发挥想象力。

A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back.

提示词：一只半鸭半龙飞翔在美丽的日落中，背上背着一只穿着探险装备的仓鼠。

a giant duck walks through the streets in Boston.

提示词：一只巨大的鸭子漫步在波士顿的街道上。

nighttime footage of a hermit crab using an incandescent lightbulb as its shell.

提示词：夜间拍摄到一个寄居蟹使用白炽灯泡作为它的壳。

A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view.

提示词：一场在海上进行的自行车比赛，不同的动物作为运动员骑着自行车，采用无人机摄像机视角。

也可以先描述环境，再描述角色的表演状态，这样Sora的生成结果在镜头内容的呈现也表现出和提示词一致的对应关系。

a giant cathedral is completely filled with cats. there are cats everywhere you look. a man enters the cathedral and bows before the giant cat king sitting on a throne.

提示词：猎犬和萨摩耶犬应该步行穿过纽约市，然后出租车应该停下来让狗通过人行横道，然后他们应该走过椒盐卷饼和热狗摊，最后他们应该看看百老汇的标志。

还可以把上面的两种方式合并起来，并根据剧情发展进行衔接，下面这个例子展现了Sora的对场景的表现能力

提示词书写结构是主体+动作+环境，并通过两个“然后”，描述了环境和表演的连续变化过程。

retriever and samoyed should walk through NYC, then a taxi should stop to let the dogs pass a crosswalk, then they should walk past a pretzel and hot dog stand, and finally they should end up looking at Broadway signs.

提示词：金毛犬和萨摩耶犬应该漫步穿过纽约市，然后一辆出租车应该停下来让狗穿过人行横道，然后它们应该走过一个擺賣软饼和热狗的摊位，最后它们应该停下来看着百老汇的标志。

从结果上来看，Sora在生成过程中模拟了这个街道的环境，并让生成内容中的主要元素，如猎犬和萨摩耶犬的表演，以及出租车的定点都很好的形成了画面中内容的配合关系。可以说，Sora实现的不仅包含对画面内容本身的生成，还包括对场景内因时间和空间发生变化带来的前后影响的表现能力，这便是“世界模拟器”的体现。
Sora生成的效果，建立在对语义的充分理解，以及对画面内容和时空关系的充分理解之上，让AI生成视频的能力跨越了一大步。这个进步把AI视频从4s的图片动态化时代快进到了60s的短视频时代。

进一步的，从技术文档中视频到视频的编辑的例子也为我们展现了全新的内容创作方式，通过输入一段轿车在公路上行进的视频，可以通过自然语言来控制画面内容，比如回到1920、中世纪、或者来到赛博朋克风格的世界。

Sora在动画领域的落地可行性如何？

首先，那些拥有天马行空创意脑洞的创作者，可能即将拥有一个全新的，能够放飞想象力的工具，演化出新的动画类型，提供一种独特的审美体验。
两个斑点相爱了。

a green blob and an orange blob are in love and dancing together.

提示词：一个绿色的斑点和一个橙色的斑点坠入爱河，一起跳舞。

叶脉成为了小火车运行的轨道。

macro shot of a leaf showing tiny trains moving through its veins.

提示词：对一片叶子的微距镜头，展示微小的火车在叶脉中穿行。

云生气了会打雷。

A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth.

提示词：一朵巨大而高耸的云形状如同一个人的身影横亘在地球上空。这朵云人向地面发射雷电。

此外，结合Sora的案例来看，受到AI模型训练集和模型推理方法，以及计算资源的限制，角色表演的情感的丰富程度还和优秀的动画差距很大，缺少真正打动观众的，灵动的动画表演和情感诠释。
而从动画这样一种媒介形式表现的内容特点上看，以曾被市场认可的的动画类型举例，美国动画界第一个标准化动画风格——橡皮管动画的代表《猫和老鼠》《茶杯头》等作品中，动画的夸张表演和审美趣味，是吸引观众观影的兴趣点之一，这种特性在目前Sora释放出来的案例中仍然比较薄弱。
在具体的操作过程中也会面临一个衍生问题，尽管Sora最长能够生成1分钟的视频，那么当我们通过文生图的方式进行创作，得到了一个比较满意的造型和表演，那么如何把这1分钟的内容出现的角色、场景和风格，精准的传递到下一个轮生成之中呢？
Sora目前展现出来的案例，尚不能完整得进行一部完整的，由同一系列角色演绎的连续型内容创作，这可能是接下来无论是OpenAI或者其他厂商以及开源生态值得攻克的一个点。
短小的示例视频作为技术是完全没有问题的，但是在观众观影需求、IP认知，产生长期的内容和商业价值的角度，目前的技术突破尚不能形成这方面的闭环，这也是未来Sora发布会到AI视频和动画真正成熟被应用到内容创作体系中，模型算法和产品能力需要逐步丰富的特性。

面对Sora这样革新性的AI视频技术出现

我们有哪些事情可以做的呢？

打好基础依然重要，包括讲故事的能力、视听语言、角色设计、动画运动和表演规律的基础，培养审美和叙事能力。模型的性能可能是内容质量的上限，发挥出模型的能力的人仍然是创作者。
从Sora这类模型的控制方式来看，如文字提示词，图像提示词，和视频到视频的编辑，对应的其实是讲故事的能力，把故事转化为影像的能力，和对目标效果的表述能力，这些仍需专业的积累才能够驾驭得更好，从而减少因为对工具掌握的程度带来对创作上的限制。
对AI视频创作感兴趣的朋友们，提前准备好想创作的故事，构建世界观、设计角色、故事板都是不错的选择。
最后，陪伴大家一起读一下官方技术文档。

Video generation models as world simulators

作为世界模拟器的视觉生成模型

简单来说，OpenAI在探索视频生成模型的大规模训练，超过runway，pika以及任何现有视频生成模型，构建了一个世界模拟器。这个模拟器，是从大量的不同时长、宽高比和分辨率的视频和图形上训练出来的基于文本条件的扩散模型，这也意味着，Sora能够根据提供的文本描述（如“一只坐在草地上的小猫”）来生成与描述相匹配的视频内容，同时具有灵活的时长和分辨率，最大上限是1920*1080，30帧/秒。

接下来的内容包括两项重点：

（1）将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型

（2）对 Sora 的能力和局限性进行定性评估

Turning visual data into patches

将视觉数据转换为块

将视觉数据转换为patch指的是一种处理和表示视觉信息的方法，其中视觉数据（如图片和视频帧）被分割成小块或“补丁”。这些小块作为模型输入的基本单位，模型可以学习到如何表示和重建视觉场景，从而在给定某些条件（如文本描述）时生成新的图像或视频内容。

Patch类似于大语言模型的"token"，是指文本数据的基本处理单元。模型通过将文本分解为较小的片段来理解和生成语言，Tokenization（分词）是将原始文本转换成模型能够理解的一系列token的过程。训练过程把不同类型视频和图片转成patch，作为模型输入的基本单位。这一个过程先将视频压缩到较低维的潜在空间，将视频转换为patch，然后分解为spacetime patches.

Video compression network

视频压缩网络

研究者训练了一个神经网络，其主要任务是降低视觉数据的维度。在这里，“降低维度”意味着将数据从一个高维空间（例如，原始视频数据，包含大量的像素）转换到一个低维空间。这样做的目的是为了简化数据，提取出最重要的特征，同时减少后续处理所需的计算资源。
这个神经网络以原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示（latent representation）。时间上的压缩意味着减少了表示视频动态变化所需的信息量；空间上的压缩则意味着减少了表示视频中每一帧图像所需的信息量。
Sora首先在这个压缩的潜在空间上进行训练，学习如何理解和控制这种形式的数据。训练完成后，Sora能够在这个潜在空间内生成新的视频数据。此外，研究者还训练了一个解码器模型。这个解码器的作用是将Sora生成的潜在表示转换回原始的像素空间，即将压缩的视频数据还原成可以直接观看的视频格式。
以上是一个完整的视频处理和生成流程，包括将原始视频数据压缩成潜在表示、在这个潜在空间上训练视频生成模型Sora，以及最后通过解码器将生成的视频还原成原始像素格式的过程。

Spacetime Latent Patches

隐时空编码块

在视频数据被压缩之后，接下来的步骤是从这个压缩后的视频中提取一系列的Spacetime Latent Patches，包含了视频在特定时间和空间范围内的信息。

这些Patches充当了transformer模型中的token，就像在自然语言处理中单词被用作token一样。这个方法和过程统一也适用于图形，从能够把不同分辨率、时间和宽高比的视频和图像作为Sora的训练集，在模型推理即生成新的视频内容时，可以通过在适当大小的网格中排列随机初始化的Patches来控制生成视频的大小。

Scaling transformers for video generation

扩展 transformer 用于视频生成

Sora的底层基础仍然是基于Transformer 架构的扩散模型，通过输入噪声Patches和文本提示等调节信息，能够用于预测"干净”的Patch。此外，Transformer 架构同样也被广泛的应用于大语言模型，计算机视觉和图像生成等领域。在训练过程中，使用固定的种子和输入，随着训练计算量的增加，生成样本质量显著提高。

Base compute 4x compute 16x compute

Variable durations, resolutions, aspect ratios

可变的持续时间、分辨率、宽高比

在以往，通常用于训练图形和视频模型的训练集统一成标准的尺寸，例如分辨率为 256x256 的 4 秒视频，研究发现，对原始大小的数据进行训练有几个好处，能够让采样更灵活，并改进构图和取景。

Sampling flexibility

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。这个特性还能够帮助在以全分辨率生成之前快速以较低尺寸制作原型内容，所有这些都使用相同的模型。

Improved framing and composition

改进的构图和取景

研究根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora（右）的视频取景有所改善。

Language understanding
语言理解

训练文本到视频生成系统需要大量带有对应文字说明的视频，这里将 DALL·E 3 中引入的重新标注技术应用于视频。研究者训练了一个专门的模型，这个模型的任务是为视频内容生成详细且富有描述性的文字说明。

这种标注模型能够观察视频中的场景、动作、物体等元素，并生成准确描述这些内容的文本标注。然后使用它为训练集中的所有视频生成文本说明，从而提高了文本的准确性以及视频的整体质量。类似于DALL·E 3，这里也利用GPT将简短的用户提示转换成更长的详细说明，然后发送给视频模型，这使得 Sora 能够生成准确遵循用户提示的高质量视频。

Prompting with images and videos

通过图形和视频生成视频

除了文字以外，Sora 也可以通过图像或视频生成新的视频。这使 Sora 能够执行各种图像和视频编辑任务，包括创建循环视频、将图形转换为视频、向前或向后扩展视频等。

Animating DALL·E images 通过图像生成视频

Sora 能够根据根据输入的图像和文字提示词生成视频，以下是根据DALL·E生成的图像结合提示词生成的视频。

A Shiba Inu dog wearing a beret and black turtleneck.

提示词：一只穿着贝雷帽和黑色高领毛衣的柴犬。

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

提示词：扁平设计风格的怪物插画，描绘了一个多样化的怪物家庭。这个群体包括一只毛茸茸的棕色怪物，一只带有天线的黑色怪物，一只斑点绿色怪物，以及一只小巧的带有小圆点的怪物，它们在一个充满趣味的环境中互动。

An image of a realistic cloud that spells “SORA”.

提示词：一张写有“SORA”的逼真云朵图片。

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

提示词：在一座华丽的历史大厅里，一股巨大的潮水波峰出现并开始破裂。两名冲浪者抓住这一瞬间，熟练地驾驭着波浪的表面。

Extending generated videos 扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面的几个视频都是从生成的视频片段开始向前延伸的。因此，尽管这几个视频的开头都不同，但所有视频的结局都是相同的。

通过这种方法，可以向前和向后扩展视频以生成无缝的无限循环。

Video-to-video editing 视频到视频编辑

扩散模型使得从文本提示编辑图片和视频的众多方法成为可能。将将这些方法之一，SDEdit应用于Sora，能够使其能够在零样本的情况下转换输入视频的风格和环境，就像游戏设置一样随意切换场景和跑道。

Input video

Output video

Connecting videos 连接视频

使用Sora可以在两个输入视频之间逐渐插值，创建在完全不同主题和场景构成的视频之间的无缝过渡。在下面的例子中，中间的视频是左右两侧视频之间进行插值的效果。这就和“融合”技能一样，会触发很多不可思议的效果。

融合后的效果

Image generation capabilities

图像生成能力

Sora也能够生成图像。通过在一个具有一帧时间长度的空间网格中排列高斯噪声的patch来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。

Close-up portrait shot of a woman in autumn,

extreme detail, shallow depth of field

提示词：生成一张秋季风的女性特写肖像

拍摄时极致细腻，景深较浅

Vibrant coral reef teeming with colorful fish

and sea creatures

提示词：充满生机的珊瑚礁

充斥着丰富多彩的鱼类和海洋生物。

Digital art of a young tiger under an apple tree

in a matte painting style with gorgeous details

提示词：以绝美细节为特色的数码艺术作品

呈现出一只年轻的老虎站在苹果树下

以哑光绘画风格呈现

A snowy mountain village with cozy cabins

and a northern lights display,

high detail and photorealistic dslr, 50mm f/1.2

提示词：一个被白雪覆盖的山村，有舒适的小木屋

北极光在空中舞动

采用高度详细和照片逼真的单反相机拍摄

使用50mm f/1.2镜头。

Emerging simulation capabilities

新的模拟能力

在大规模训练视频模型时，出现了一些非常酷的新功能。这些功能让Sora这个系统能够模拟现实世界中的人、动物和环境等方面，而且这种模拟是自然发生的，不需要特别去告诉它如何理解3D空间或物体，这是一种纯粹的规模化产生的现象。

3D consistency 3D一致性

Sora可以创造出看起来像是用摄像机拍摄的视频，摄像机在移动和转动时，视频里的人物和场景也会像在真实世界中那样，按照三维空间的规则移动。这让生成的视频看起来更加真实和自然。

Long-range coherence and object permanence

长时间的相关性和物体的一致性

对于视频生成系统来说，一个重大的挑战是在生成长视频时保持一致性。Sora通常能够有效地模拟短期和长期的依赖关系，尽管并非总是如此。例如，模型能够在人物、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样，它可以在一个样本中生成同一个角色的多个镜头，整个视频中保持他们的外观不变。

Interacting with the world

与世界互动

Sora有时能够以简单的方式模拟影响世界状态的行为。例如，一个画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

Simulating digital worlds

模拟数字世界

Sora不仅能够生成或模拟自然世界中的场景和活动，还能够创建或再现由人类设计和控制的过程，比如视频游戏中的动作和环境。这意味着Sora能够理解和执行那些在数字或虚拟环境中特别设计的行为和规则，从而生成与这些环境相符合的视频内容。

——一个例子是视频游戏。Sora可以在Minecraft中同时控制玩家角色（通过一些基本规则）并以高保真度渲染游戏世界及其动态。通过向Sora提供提到“Minecraft”的文字提示，可以零样本地激发出这些能力。

这些能力表明，不断扩大视频模型的规模为开发出能深度模拟物理和数字世界的先进模拟器提供了一条可行性的路径，这样的模拟器将能够精确再现我们所处的物理世界和虚拟世界的方方面面。

Discussion

讨论

Sora目前还存在许多限制。例如，它无法准确模拟许多基本互动的物理效应，比如玻璃破碎。其他的互动，比如吃东西，也不总能正确反映物体状态的变化——比如在长时间样本中出现的不连贯性或物体的突然出现等。

然而，Sora目前所展现的能力证明了持续扩大视频模型规模是一条通往开发出能够精确模拟物理世界和数字世界及其内部的物体、动物和人类的强大模拟器的有希望的路径，研究正在朝着创造能够模拟一切的超级模拟器迈进。

参考文献

https://openai.com/research/video-generation-models-as-world-simulators

本期话题

你认为未来被AI影响最大的行业有哪些？

END

公众号改版，如果没有星标✨可能之后会看不到我们的文章

添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。

你一定还感兴趣：

Sora背后团队原来是他们！居然还有00后？外网又传出一波令人震惊的OpenAI sora视频！

行业震动！OpenAI首个视频生成模型震惊世界后还有这些问题...

脑机接口原来长这样？！元宇宙离我们到底还有多远？

蝉联动画界最高奖项！《蜘蛛侠：纵横宇宙》横扫安妮奖7大奖项！！

《寄生兽》由Netflix联手《釜山行》导演翻拍韩版，质疑声却比噱头大？

2024年全球最赚钱的124个IP，米哈游原神首度上榜！

继续滑动看下一个

wuhu动画人空间

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？

OpenAI sora视频生成模型技术报告！对动画领域有什么影响？

《寄生兽》由Netflix联手《釜山行》导演翻拍韩版，质疑声却比噱头大？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效 助力高质量发展？

生成图片，分享到微信朋友圈

OpenAI sora视频生成模型技术报告！对动画领域有什么影响？

《寄生兽》由Netflix联手《釜山行》导演翻拍韩版，质疑声却比噱头大？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？