查看原文
其他

轻松上手!Runway GEN-1详细使用教程,让你成为AI视频大师!

穿行者2049 今说新语 2024-04-14

我的专栏《AI绘画与AIGC实践之路!

已经开通,欢迎加入!


本周是人工智能技术迅速发展的一周,GPT-4、Midjourney5、GEN-1分别代表了文本生成、图像生成和视频生成三个AIGC领域。前几天,我收到了GEN-1试用通知,但一直忙于Midjourney的新版体验,直到今天才体验了这个传说中的AI视频神器。

GEN-1是Runway公司推出的一款新型视频模型,能够改变视频或电影的视觉风格。去年,Runway公司曾合作开发了Stable Diffusion,现在又发布了名为Gen-1的人工智能模型。通过应用文本提示或参考图像中指定的风格,Gen-1可以将现有视频转换为新视频。

然而,对于普通用户来说,体验效果需要降低期望值,可以将其视为去年Disco Diffusion刚推出时的效果。尽管从官方发布的一些演示视频来看,技术无疑非常棒,也能够实现非常精彩的效果,但是目前面向测试用户的服务存在许多限制,导致完成的视频还比较粗糙,例如视频时长只有3秒,分辨率和流畅性都很低。不过,用户可以体验一下他们产品未来的一个实现理念和流程。

从上面我制作的演示视频中可以看到,GEN目前能实现的几个主要功能:
1、将文本提示的风格转移到视频的每一帧。
2、通过输入图像改变视频每一帧的风格。
3、隔离视频中的主题,并使用简单的文本提示对背景进行修改。
4、保持视频背景的不变,直接修改视频的主体。
下面是一些使用GEN-1的详细说明:
一、如何使用
目前这款产品在内测期,你需要到以下网址申请排队:
https://forms.gle/k3fqL3shgjMEcZQUA

本周,前期申请的部分用户将收到使用权限,但申请通过后并不会收到邮件通知,需要自己查看Discord的官方频道,如果能看到下面的频道,就表示通过了测试申请,可以开始使用。

二、使用方法
目前不支持直接从文本提示语生成视频,必须提供一个初始视频,然后可以叠加文字提示语或叠加图片提示,生成新的视频。
使用方法和Midjourney类似,有权限的用户可以进入左侧以generate开头的任意一个频道开始体验。
1、文本+视频
在输入框点击+号上传一个视频,然后在输入框输入@GEN-1 文本提示语  --参数,回车开始生成。
Prompt:Hayao Miyazaki's film
上面是原始视频+文字提示语混合生成的视频。
2、图片+视频
在输入框点击+号上传一个视频+一张图片。然后输入@GEN-1 --参数,回车开始生成。
开始生成后,会自动进入一个子进程,后续你可以一直在这个子进程中操作,避免了类似Midjourney大厅里人多消息混杂的情况。
上面是原始视频+图片提示混合生成的视频。
3、视频时长:在测试期间,Gen-1 的输出限制为 95 帧,或大约 3 秒。
4、生成时间:平均而言,生成大约需要 2-3 分钟才能完成,但在使用率高的时候,可能需要更长的时间。
三、参数说明
以下这些参数可以添加到文本提示的末尾,或者紧跟在图像提示的 @Gen-1 之后。例如:@Gen-1 --upscale
--depth_blur_level (default 2) (必须是整数值)
确定输出与输入视频结构的接近程度。0,尽可能接近,而 7 几乎忽略输入视频。建议你探索 0 到 5 之间的值。
--cfg_temporal_scale (默认 1)
可用于控制时间一致性。低于 1 的值会降低一致性,高于 1 的值会增加一致性。建议使用 1.0 和 1.25 之间的值,因为运行时间会增加,并且在较低和较高的值下会发生颜色偏移。
--cfg_scale(默认 8.5)
增强考虑文本或图像提示的程度。较低的数字将导致更具创造性的解释,而较高的数字将对提示更严格。建议值介于 7.5 和 12.5 之间。
--seed(随机)
默认情况下随机生成数字,但是如果遇到喜欢的种子值,可以使用 --seed ###### 重新输入该值
--upscale(默认关闭)
将显着提升视频结果,同时略微增加运行时间。
--compare(默认关闭)
将从你的原始输入视频擦除到生成的结果以比较输入与输出
--interpolate (默认关闭)
会将帧插值添加到最终输出,因此插值将有助于使丢帧播放更流畅一些。
--only_foreground_depth(默认关闭)
将影响生成的前景主题,并用生成的内容替换背景
--green_screen (默认关闭)
将隔离并影响主体并将背景替换为绿色
--mask_mode_foreground(默认关闭)
只会影响前景主体而不会影响背景
--mask_mode_background(默认关闭)
只会影响背景而不会影响前景主体
--subsampling(默认 2)
就是如何控制掉帧。值为 1 将按顺序生成帧,值为 2 将每隔一帧跳过一次,值为 5 将每隔 5 帧跳过一次。这是一种以丢帧为代价控制较长剪辑的输出生成的方法。
--denoising_steps(默认 50)
用于对最终 Gen-1 输出进行降噪的步数。高于 50 的值将产生最小的影响。
四、操作建议
1、关于初始视频
刚开始操作,什么参数也不需要改,先找一个短视频,最好动作变化较大。因为你要在3秒中体现出变化,慢吞吞的视频体验不出来,可以是人物跳舞的视频,或者人物近景大头自拍视频。如果是拍摄的风景,也是动态变化比较大的,例如飞奔的火车、汽车等等。
2、提示语
目前看提示语简短些就好,各种关键词对最终效果影响不大,重要的是风格要独特,例如城市夜景、燃烧、爆炸、夕阳等关键词就容易出效果,什么高清、细节等等就算了,这么低的分辨率也体现不出来。
3、图片
图片影响程度要远远高于文字,尽量选用一些风格鲜明的图片,例如下面选梵高风格的图片生成的效果。


4、推荐参数:
前面的基本参数都搞明白了的话,你可能会非常沮丧,效果很粗糙。但现在你可以添加一些其他参数,改变一下生成的结果,注意所有参数都会降低生成速度,所以是建议你熟悉了基本操作以后再增加以下参数。
--upscale true 这个参数相当于增加分辨率
--interpolate true 这个参数是增加视频插值,有助于提高流畅度。
--mask_mode_foreground true 只会影响前景主体而不会影响背景,效果看下面的视频,这个提示语是乐高小人跳舞,所以面部很差劲。
--mask_mode_background true 只会影响背景而不会影响前景主体,效果见下。
--subsampling 5 增加跳帧次数,相当于增加了视频长度,可以在视频生成后再在视频编辑软件中增加插帧。
最终推荐所有视频把以下三个参数都打开,效果会更好一些。
--upscale true --interpolate true --subsampling 5 
5、创意
即便在这样严苛的条件下,还是有网友创作出了非常好的作品,所以好的创意很重要。
这篇文章就介绍到这里,由于使用时间较短,一些理解难免有错,后面慢慢继续学习,最后再放一个我用GEN-1做的完全没有创意的视频。


《2023 AIGC从入门到精通专栏》

欢迎您的加入!


根据你的喜好,推荐阅读以下AI绘画内容:




喜欢请转发到朋友圈支持一下!

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存