OpenAI炸裂升级！又一个行业被干掉了

Original 万连山格隆 2024-02-27

作者 | 万连山

数据支持 | 勾股大数据（www.gogudata.com）

假期轻松愉快，没太关注时事。

没想到一觉醒来，朋友圈突然被一则新闻刷屏：OpenAI发布文生视频模型Sora 。

好家伙，瞬间给我拉回工作氛围。

人们一直期待GPT-5，但Sora带来的轰动不亚于GPT-5的发布。

之前大家还在关注，谷歌推出的Gemini能否杀死GPT4，全世界各大科技巨头能否在这波AI浪潮中弯道超车。

现在，显然没人关注了。

因为OpenAI自己可能要用它先杀死GPT-4了。

我上官网（https://openai.com/sora）看了演示视频，无论从视频流畅度还是细节表现能力上，Sora的效果都相当惊艳。

难怪有人说：现实，不存在了。

比如官推里这条14秒的东京雪景：美丽的，被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道，跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落，与雪花一同飞舞。

尽管我们能感觉到，还有那么一些不自然。但当素材用，已经足矣。

又比如下面这张对法令纹和痘印的刻画，只要不去吹毛求疵，确实已经足够真实。

说句不该说的，这张图，至少看起来比坐在美颜前面的女主播们真实……

网友们也第n+1次纷纷哀悼起相关赛道的公司们：

“OpenAI就是不能停止杀死创业公司。”

“天哪，现在起我们要弄清什么是真的，什么是假的。”

“我的工作没了。”

“整个影像素材行业被血洗，安息吧。”

……

01 现实与虚拟的界限

其实，文字生成视频这回事，早就不新鲜了。

2023年8月，RunwayGen2正式推出，AI生成式视频正式进入大众视野。

到今年初，不计其数的产品一个接一个，PIKA、Pixverse、SVD、Genmo、Moonvalley……等等等等。

太多了，也太卷了。

我们能明显感觉到，最近小半年刷的短视频里，多了很多不自然的视频。稍微品一品，就能察觉这肯定不是人工剪辑的。

首先，没有超过4s的连贯镜头；其次，很不自然。

这些实用的工具，基本都是小公司出品的，功能并不完善。

说不完善都还算保守了，简直就是漏洞百出。

视频内容归根结底，是对现实世界的还原。既然如此，那其中必然包含大量交互镜头——物与物、人与人、人与物，等等。

就像用摄像机拍出来的片段一样。

我们看电影、看视频，看的也是交互，相信没几个人喜欢看一个人的独白。

比如，玻璃杯从桌子上摔到地上，它应该碎掉；像皮球摔到地上，它应该弹两下。

但让AI去合成这类场景，你就会发现，它并不会还原以上的物理现象。物体与物体碰撞或叠加到一起，AI只会让其中一方变形。

这说明了一个关键问题：过去的AI并不理解现实世界的规律。

不符合人类常识的视频，能有多大市场呢？

不理解基础物理的AI，它的上限能有多高？

想要解决这个问题，难不难？很难。

现在的AI大模型，虽然是模拟的人脑，但毕竟有所区别。

最本质的区别在于：AI 没有想象力。

比如，你一巴掌扇在我脸上，面部肌肉如何颤动？把一颗鱼雷扔进池塘，水面如何散开？

我们可以想象到后续会发生的事情，AI 不能。

无论它的参数堆得多高、计算速度再快，都不能。

即便是目前的Sora也做不到。

从各种演示例子中可以看到，虽然Sora 对自然语言有着深入的理解，能够准确洞悉提示词，生成表达丰富的内容，甚至可以创建多个镜头、保持角色和视觉风格的一致性。

但是，它依然无法准确模拟出复杂场景的物理现象，因为它不理解因果关系。

比如，人咬了一口饼干，但饼干上没有咬痕；又或者混淆左右、不遵循特定的摄像轨迹；甚至无法理解，影子是人的影子还是物的影子……

如此一来的结果，便是合成有违物理常识的视频。

既然如此，Sora到底牛在哪里，为什么这么多人追捧它？

因为它其实做得足够好了，至少比同行们好太多了。

用Fortune杂志的话来说就是：将生成式AI之战转移到了好莱坞。

用官网的话来说，它能够生成包含多种角色和特定类型的运动，主体和背景细节准确；还能理解事物在物理世界的存在方式。

简单来说，它虽然还不能理解需要想象力的因果律，但最基本的现实场景，它是可以还原的。

AI生成视频这一条赛道，诞生至今还不到1年，我们确实不能要求太高。

如果把上文描述的内容当做终结目标，把去年至今的一系列生成工具作为雏形，Sora大概处在两者之间。

它是如何做到的？

02 谁站在巨人肩上？

Sora主要采用了两种技术。

一个是扩散模型（diffusion model），原本是用于文字转图片的。

简单来讲，是先生成一张全是noise（噪声）的图片，与目标图片的vector尺寸相同（比如目标图片是256*256，初始sample图片也要是256*256），然后经过若干次denoise（去噪声），让图片逐步成型。

问题在于，大模型怎么知道去除什么？保留什么？

当然需要训练。

研究人员得先用清晰的图片，一步一步加噪声进去，如下图。

这是上图的逆序，即反向扩散。

看懂了上面两个步骤，你才能理解MIT Technology Review究竟在说啥：

Sora的团队使用了DALL-E 3背后的技术，即扩散模型。扩散模型经过训练后可以将模糊的随机像素变成图片。

其原理并不复杂，但需要时间和人力成本。

另一项技术是Transformer的神经网络，就是GPT（Generative Pre-Trained Transformer）中的T。

但是，Transformer 架构人尽皆知，在文字、图像生成上已经成为主流，为什么别人没想着在视频生成上用，就OpenAI 用了呢？

用技术的话来说：Transformer 架构中，全注意力机制的内存需求会随着输入序列长度而二次方增长。

说人话就是：计算成本太高了。

即便OpenAI背靠微软，各种融资拿到手软，也不愿意这样烧钱。

所以他们开发了一个视频压缩网络，先把视频数据降维到latent（潜空间），再将压缩过的数据生成 Patche，这样就能使输入的信息变少，有效减小计算量压力。

然后，为了让大模型更好理解用户的意思，OpenAI 直接把文生视频模型套进已经得到市场认可的GPT模型范式中，这就是它独有的优势了。

使用者输入的提示词，并非直接交给Sora，而是先让成熟的GPT将文本进行精准详细的扩写。

Sora再根据GPT提供的详细文本，逐帧生成更准确的视频。

说实话，个人认为，这才是Sora有别于其他模型的最大优势。

其他团队即便能解决其他步骤，但没有成熟的大模型，也是白搭。

整体上看，Sora的成功几乎是水到渠成的。

它能有如今惊艳的表现，基本全部得益于OpenAI过去的成果，有些是借用了思路，有些则是不可或缺的基本架构。

这就是所谓的先发优势了，它不仅仅体现在老生常谈的垄断问题上面。

一生二、二生三、三才生万物。

反观OpenAI此时此刻全世界的各大竞争对手，无一例外全部卡在文生文、文生图上。

更有甚者，连一都没有的，还是老老实实抓紧做底层。不然等先发者三生万物了，真的是什么都晚了。

我们能明显感觉到，AI比过去任何行业的迭代都要快。

也许，这个技术差只要维持两年，就会变成永远无法逾越的鸿沟。

所谓“差距只有几个月”、“弯道超车”，基本是不存在的。

03 尾声

正如上文所说，Sora目前仍有很大缺陷。

它能生成复杂、精美且足够长的视频，这证明AI在理解现实世界的能力上有相当大的提升。

但这种提升，依然基于大量的训练，而不是AI本身对世界的理解。Sora对视频的处理依旧是有很多局限性，甚至包括很基本的事实错误。

所以Sora给人的感觉虽然震撼，但还称不上这两天热烈讨论的“世界模型”。

所谓“现实不存在了”，绝对不是指现在。

但未来说不准。

在我们普通人眼中，Sora就是个文生视频模型。它的出现，意味着大多数影视、视频制作从业人员，即将失业。

但对OpenAI团队而言，并不仅此而已——这必然是他们构建AGI（通用人工智能）的重要环节。

AGI与世界的交互不仅体现在文字、图片和语音等形式上，还有更直接的视觉视频，这也是人类自古以来认知和理解世界最重要的方式。

所以生成视频、理解视频和理解物理世界，是未来AGI必备能力之一。

此时此刻，我们还能想象得到，生成式AI会对影视、游戏制作行业造成天翻地覆的影响。

等到通用人工智能问世的那一刻，AI到底能做什么、会对世界造成多大的影响？

所有人都能想象到的，是必然会应用到具身智能，也就是机器人上。

但除此之外呢？抱歉，想象力有限，真的想象不出来。

或许，AI真的就是全人类期待了几十年的那个技术奇点。你知道某些事情会发生，但无法想象究竟是什么事。（如果能想象，那也就不叫奇点了）

只能祈祷，未来是星辰大海，商机遍地。(全文完)

▍格隆汇·2024·《真实中国人的真实年》&《我的归乡记》合辑

继续滑动看下一个

OpenAI炸裂升级！又一个行业被干掉了

Original 万连山格隆

格隆

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

OpenAI炸裂升级！又一个行业被干掉了

OpenAI炸裂升级！又一个行业被干掉了

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

生成图片，分享到微信朋友圈

OpenAI炸裂升级！又一个行业被干掉了

OpenAI炸裂升级！又一个行业被干掉了

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！