查看原文
其他

文生视频大模型 Sora研究报告:对算力需求影响几何?(附下载)



需要下载本报告的朋友,可以扫描下方二维码进圈,2万+份报告,3000+会员,高清原版,无限制下载,持续更新

(公众号资源有限,仅能展示部分少数报告,加入星球获取更多精选报告)




(精选报告来源:报告研究所)


一、Sora 大模型横空出世,AGI 时代加速到来 


北京时间 2 月 16 日凌晨,OpenAI 发布了首个文生视频大模型 Sora,并配有 48 个生成案例及技术 报告,能够通过自然语言指令生成长达 60 秒的高清流畅视频,在生成视频长度、清晰度、连贯性、多 镜头切换方面都有显著提升。

Sora 在文生视频领遥遥领先。Sora 可以将简短文本描述转换成一分钟流畅视频,相对于 Runway、 Pika、Stable Video 等提升了几个代级。1)生成视频长度:Runway、Pika 等传统文生视频大模型平均 时长在 3-5 秒,Runway 用户可以最多延长视频长度至 16 秒,Sora 相对传统视频生成工具提升 15-20 倍;2)视频质量显著提升:可生成 1080P 高清视频;3)可实现多镜头切换:可以理解和模拟运动中 的物理规律,可以实现复杂的运动相机模拟;4)视频连贯性与稳定性更好:在建模能力上表现更好, 可以依赖关系进行建模,能初步理解及模拟物理运动规律;5)高可拓展性:支持多种数据格式输入, 具备实现文生视频、图生视频、向前或向后视频扩展能力,同时支持视频连接。

二、Sora 基于 DiT 模型搭建,更适用文生视频领域

Sora 实际上是一种基于 DiT(Diffusion Transformer,扩散变换器)的模型搭建。,同时采用了 Diffusion 与 Transformer,是一种用于扩散模型的新架构。DiT 尽可能趋于标准 Transformer 架构,以保留其可扩 展性。

扩散模型广泛应用于视频生成领域,采用编码器-解码器架构。扩散模型是标准图像扩散架构的自 然扩展,它可以从图像和视频数据中进行联合训练,可以减少小批量梯度的方差并加快优化速度,迅 速取代了基于生成对抗网络(GANs)和自回归变换器的方法,成为图像生成的主导方法。 

Sora 受到大语言模型的启发,用 Transformer 替换扩散模型中的 U-Net,通过将 Transformer 与 Diffusion 结合成为一种基于扩散变换的模型 DiT

Sora 将视频降维成时空 Patch 作为视频数据对模型进行训练。首先为了适应大模型支持的上下文 长度,降低处理复杂度,类似 ViT(Vision Transformer)将图像进行处理,将图像进行降维分解,这样 一来可以兼容所有的数据素材(静态图像可以看成是在时间 t=0 的一些列 Patch)。

Sora 采用 DiT 模型,通过 VAE 将视频压缩到 Latent Space(潜在空间)中,然后将这种表现形式 分解成时空 Patch(视频块),相当于大语言模型中的 token。

Sora 通过给定输入噪声及 Prompt(文本提示信息),训练出的模型来预测原始的不带噪声的图像, 类似于通过预测带有马赛克的原始图像,让模型去学习去除马赛克,从而达到去噪声的目的。

在生成 视频过程中,Sora 通过对噪声进行去噪,来预测原始 Patch,最后将图片转化为视频。

三、Sora 算力分析框架拆解,单次训练算力需求或可达到 GPT-3 175B 的 8.2 倍

完整报告下载:因篇幅限制,本报告完整版PDF已分享到报告研究所知识星球,扫描图片中二维码进圈即可下载!


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。


全文完。感谢您的耐心阅读,请顺手点个"在看"吧~



业务咨询、商务合作:136 3162 3664(同微信)


欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:

  1. 报告持续更新,分享最新、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报、统计报告等。公众号发布的报告也可同步下载;

  2. 海量研究报告均可下载PDF高清版,无限制;

  3. 以提问方式获取具体报告需求;


扫描下方二维码加入星球


关于我们

我们是报告专业研究机构及知识服务平台。专注于分享国内外各类行业研究报告、热点专题报告、调研分析报告、白皮书、蓝皮书等。所有报告来源于国内外数百家知名研究机构,覆盖新能源汽车、数字经济、新材料、新能源、信息技术、先进制造、节能环保等新兴产业,并涉及医药生物、金融、互联网+、医疗大健康等众多行业及细分领域。目前报告已累积近50000+,并持续更新。


报告涵盖但不限于:

1、新能源汽车、数字经济、新材料、新能源、信息技术、先进制造、节能环保;

2、互联网、新媒体、短视频、抖音、快手、小红书;

3、元宇宙、5G、区块链、人工智能;

4、房地产、金融、券商、保险、私募;

5、零售、快消品、餐饮、教育、医疗、化妆品、旅游酒店;


温馨提示


应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!


这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”


入群方式:扫描 / 识别二维码加助理好友,发送「个人纸质名片」或「电子名片」审核后即可入群。

免责声明:
本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,报告均通过公开合法渠道获得,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系


继续滑动看下一个
报告研究所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存