查看原文
其他

炸了!GEN-2正式公测!Runway带领我们进入AI视频新时代!

穿行者2049 今说新语 2024-04-14
扫除AI绘画的迷雾,全面解读AIGC的秘密!
加入《AI绘画与AIGC实践之路》专栏,一睹究竟!

Runway公司宣布在Discord频道内可以开始使用和测试第二代AI模型Gen-2。Gen-2是一个文本转视频的模型,它不需要视频输入就可以直接从文字生成视频。

使用Gen-2只需要以下三种输入之一:

1、简单的文本提示

2、参考图像

3、文本提示 + 参考图像

Gen-2在Discord上的使用方式与第一代Gen-1模型基本相同:直接@Gen-2机器人,然后提供相应的输入(上述三种选择之一)。需要注意的是,Gen-2仍处于早期研究测试阶段,性能会随时间的推移而持续改进。目前单个视频长度5秒,实测效果非常满意!比GEN-1的质量高出一个档次!

默认参数设置:

• cfg_scale: 10.0 

• interpolate: False 

• upscale: False 

• seed: 2421776004 

• green_screen: False

推荐参数设置:--upscale --interpolate

Gen-2的工作原理:

Gen-2是一个端到端的 transformer模型,采用文字和图像作为条件,生成高分辨率的慢风格视频。Gen-2从零开始生成视频,而不是修改和转化现有视频。

它直接从文本或图像中学习视觉概念和语义,并进行视频生成。因此,Gen-2可以产生全新内容和艺术作品,而不仅仅是现有内容的变种。

Gen-2产生的视频分辨率高达1280x720,帧率为24FPS,生成时长约为30-60秒,目前公测期视频时长只支持3秒。生成的人物会根据输入条件改变服装和道具,背景也会发生变化。下面看一下我简单测试生成的几个视频片段,效果我很满意。

Gen-2采用 transformer 体系结构并训练在高性能计算机上,但在实际部署中可以在普通GPU上实时生成视频。研究人员正在努力改进生成视频的连贯性和长期依赖性,以便 Gen-2 可以讲述更长和更复杂的故事。总之,Gen-2是一种全新的端到端的人工智能技术,可以从文本或图像直接生成自然语言视频。它可以在不提供任何视频输入的情况下产生全新的视频内容,为未来的创意工具和应用开启了新的可能性。

《2023 AIGC从入门到精通专栏》

欢迎您的加入!



根据你的喜好,推荐阅读以下AI绘画内容:





公众号内容导航

基础入门 | 建筑室内 | 模型训练 | ChatGPT

StableDiffusion  |  Midjourney  |  进阶专栏

2023.3 | 2023.2 | 2022


☞三连击支持 点赞 + 在看 + 分享👇

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存