查看原文
其他

未来已来:Gen-2 AI视频生成工具领先时代,引领影视创作进入新纪元!

穿行者2049 今说新语 2024-04-14
扫除AI绘画的迷雾,全面解读AIGC的秘密!
加入《AI绘画与AIGC实践之路》专栏,一睹究竟!

随着AI技术的飞速发展,我们正逐渐进入一个视频创作的全新时代。Gen-2作为一款具有革命性的AI视频生成工具,在这篇文章中,我将详细探讨其独特的功能和广泛的应用前景。从各种参数设置到不同场景下的视频生成效果,我会深入剖析Gen-2的优缺点以及实际应用中的技巧。现在就让我们一起踏上这场关于未来视频创作的奇妙之旅吧!没关注Gen-2的朋友可以看一下前面这篇文章《炸了!GEN-2正式公测!Runway带领我们进入AI视频新时代!》。
整体感觉这个版本的Gen-2可玩性非常高,刚开始玩的时候可以看到很多的缺陷和不足,玩的时间越长感觉它可以创造的惊喜也越多,虽然目前开放的参数还很少,但仅仅是简单调整这几个参数,就能创造很多精彩的效果。我也看到有很多国外的专业影视人员认为可以开始下场接触AI生成视频技术了。
这篇文章打算记录一下我自己测试过程中的一些感受,虽然我知道很多朋友都还没法使用,但可以先收藏本文,根据官方的说法,测试权限将分几周逐步开放给更多申请过Gen-1内测的用户,面向所有用户的权限应该在数周内放开,根据Gen-1当时开放的速度推测离大规模用上Gen-2也就在一个月内。
目前的内测版提供了以下五个参数
--upscale
--interpolate
--green_screen
--seed
--cfg_scale
一、参数介绍
--upscale 这个参数主要控制画面分辨率,默认为false,设为true后会提高视频清晰度,但会降低生成速度。
--interpolate 这个参数主要控制是否打开插帧,打开后画面流畅度会更好,但在某些方面,更多的插帧也意味着更少的变化,某些情况下可能关闭插帧会有更好的变化,所以这个参数通常可以设为true,但你也可以尝试false观察细微的变化。
--green_screen 打开这个参数可以生成绿幕效果,适合创建一些后期需要扣图的视频,例如我实验的动漫人物效果。
--seed 很好理解,控制种子数的,适合对比不同参数的最终效果。你也可以在测试的时候关闭上面的插帧,用更快的速度生成视频,效果合适后,在使用相同的种子数,但打开插帧进行高分辨率渲染。
--cfg_scale 这个也容易理解,控制文字提示语对最终视频的影响程度,越高的数值,越接近提示语,越低的数值越有更灵活的表现。从我的经验来看,具体数值要根据你的实际情况设定。如果你使用到了初始图像+文字,意味着你希望有更大的控制力,可以使用默认值为10。但如果你只用纯文字生成视频,目前我在大多数情况下都设为6.5,甚至5,这样出来的视频效果会有更多惊喜。
可以对比一下同样的提示语,在上面两个分别是10.5和6.5的不同CFG情况。个人感觉第二个视频更酷一些。
实际我注意到官方在前期邀请的一些高级用户还用到了下面两个参数,目前没有包含在内测参数中,不知是否将来网页版会用到这两个参数。
--weight 这个参数在Gen-1时就有,较高的值将使输出的视频风格更接近于选定的图片样式。
--structural consistency 这个参数在Gen-1时是控制与原始视频的一致性。如果最终Gen-2没有video2video的选项,这个参数应该就不会用到。
Gen-2可以说是第一个直接从文本生成视频的成熟产品,虽然已经有了很多的AI文本生成视频的技术,但真正达到可玩性、可用性的产品,一定是Gen-2。Gen-2对单纯文本提示语的理解,已经可以达到非常好的效果,可以看下面一些不同风格的纯文本生成的视频。

(所有那些瞬间都会随着时间流逝,就像眼泪在雨中)
二、文字+图片
由于目前的测试版只提供了单视频4s的长度(这个时长搞得我有些困惑,官方说是4s,下载后看显示是4s,上传到公众号显示却是3s),这么短的长度很难表现复杂的故事情节,你很容易想到用多个视频连接起来完成长视频的创作。但单纯靠提示语和高cfg保持不同视频风格的一致,目前看还比较困难。这时就非常有必要用到文字+图片联合生成视频。
对比一下上面两个视频,都是用了同样的提示语“撑着伞,独自彷徨在悠长,悠长又寂寥的雨巷”。在不使用初始图的情况下,即便大雨瓢泼,第一个视频中女子始终也不愿打起雨伞。
而第二个视频是先用提示语在Midjourney中生成了图像,再在Gen-2中生成视频,非常好的保持了初始图的构图举起了雨伞。
上面截图显示就是先上传截图,然后输入文字提示语,和Midjourney的操作类似。目前我创作的多个长视频,都是使用图像+文字双提示。前面的文章《AI助力视频创作:从灵感到成片的一站式解决方案!》也介绍了我的视频创作流程。简单说就是同样的提示语先用Midjourney创建整个故事系列的图像,挑选合适的图像作为初始图,再叠加提示语生成视频。这种方法一方面可以保证十多个画面具有统一的风格,另一方面可以保证生成的视频可以和初始图具有相似稳定的构图。
三、图片直接生成视频
Gen-2中除了文字生成视频,文字+图片生成视频外,还可以直接从图片生成视频。
初始图
生成视频





从测试结果来看,单纯使用一张图片,不添加文字提示语,生成的视频和原始图关联性很小,唯一可以看到有些关联的是最后一个例子。所以提示语的影响要远远大于图像的影响,我们可以把很大一部分初始工作交给Midjourney,通过Midjourney生成图像来筛选合适的构图,导入Gen-2中生成视频。
四、优缺点总结
Gen-2版本在提示语方面感觉有很大的可研究性,也就是说提示语的重要性非常高,对提示语的语义理解也较好,得益于Runway对Stable Diffusion的深度参与,所以重点可以研究更多提示语的影响,包括各种电影构图、光线、画风、艺术风格等。我认为有影视专业背景的AI爱好者很快就会发现他们自身的优势了,我这样的业余爱好者连基本的镜头移动方式都不清楚,更不用说其他专业术语了。
由于初始图对视频影响也非常大,Gen-2也会促使人们更多的使用Midjourney,尝试生成符合视频画面的各种图像。例如我为了测试绿幕小人,就去研究了一下以前从未尝试的3D风格动漫人像的提示语,我的意思是它会拓展我们自身的兴趣范围。以往你喜欢的Midjourney提示语,都可以放入Gen-2中尝试制作视频,是时候打开你的Midjourney作品库,找一些你最喜欢的图像出来了。
至于说到缺点,大家可以明显看到的是人物肢体残缺、扭曲,有些类似Disco Diffusion当时的效果。如果你看过Disco Diffusion早期绘制的人像,就不会觉得意外了。另一方面,目前在Gen-2生成的视频中,常见的效果通常是慢速缩放或平移镜头,这在一些大场景的氛围渲染上非常好,具有某种时间的凝固感。
上面这个视频可以很明显的看到平移镜头。但在一些运动镜头,特写镜头下,就很容易表现出缺陷来,画面主体其实很难动起来,更进一步的是很难多方面协调动起来。例如人物走路,通常仅仅是走路的动作多次重复,叠加不正常的移动。机器人的打斗场面也通常是少数几个关节不正常的运动,整体机器人保持静止,你可以想象一下黑客帝国中凝固的瞬间。
上面这个视频有很多战斗场景,人物动作都有很多缺陷。另外的常见缺陷就是在生成多人场景时,经常出现的双胞胎现象,即画面中经常出现相似的两个人。所以我的建议是把重点放在不同风格的尝试上,并运用一些简单的镜头移动效果,例如平移、放大,如果你得不到好的效果,更多的放手用低cfg让AI给你惊喜。不要放弃尝试,同样的提示语可以反复多次让AI生成视频,直到找到你喜欢的结果。
至于AI文本生成视频的应用前景,无疑是非常广阔的,从我尝试的不同题材可以想象未来的风景类、广告类、动漫类、剧情类、音乐MV、产品宣传等各方面都可以用AI视频来参与。如果你想象一下,一年后AI文本生成视频的效果是目前Midjourney生成图像的水准,那对影视创作行业会有多大的颠覆性。
总的来说,Gen-2无疑为视频创作带来了巨大的潜力和无限的想象空间。尽管目前仍存在一些技术瓶颈和局限性,但随着AI技术的不断发展和进步,我们有理由相信,未来的视频创作将变得更加简单、高效和富有创意。让我们共同期待一个美好的未来,那时将有更多的精彩作品诞生于Gen-2等先进工具的辅助下,为我们带来无尽的视觉享受和艺术震撼。

《2023 AIGC从入门到精通专栏》

欢迎你的加入,一起探索AI的奥秘!



根据你的喜好,推荐阅读以下AI绘画内容:





公众号内容导航

基础入门 | 建筑室内 | 模型训练 | ChatGPT

StableDiffusion  |  Midjourney  |  进阶专栏

2023.3 | 2023.2 | 2022


☞三连击支持 点赞 + 在看 + 分享👇

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存