查看原文
其他

谷歌VideoPoet作者专访:LLM将在视频生成上将超越Diffusion,模型对世界理解影响动作丰富性

智能涌现 2024-04-01

The following article is from 深思SenseAI Author SenseAI

文|深思SenseAI

封面来源|Google

在全球新一代AI独角兽的竞赛中,视频生成技术作为最具潜力的领域之一备受关注。最近,Google推出了名为VideoPoet的大型语言模型,它不仅能够从文本和图像生成视频,还具备风格迁移、视频生音频等功能,其动作生成的丰富性和流畅度令人印象深刻,被广泛认为是革命性的zero-shot视频生成工具。

最近,深思SenseAI邀请到VideoPoet的核心作者于力军同学和Google机器学习工程师Yishuai,做了一次专访,内容亮点很多,非常值得一读。

此前智涌也发布了相关文章👇

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音

为方便阅读,智涌对原文稍加进行了修改。

背景与研究方向

在本期嘉宾于力军,目前是卡内基梅隆大学的人工智能领域的博士生。于博士的学术之旅始于北京大学,专业为计算机科学和经济学。他在CMU的研究主要是与Alexander Hauptmann博士合作,聚焦于多媒体的研究。他们的团队从多媒体检索起步,逐渐过渡到视频理解,并最终专注于视频生成技术的创新。

于博士特别致力于多模态大型模型的研究,重点是多任务生成的视角。此外,他与谷歌有着长期的合作关系,他在谷歌的导师是Jiang Lu老师,他是CMU研究组的毕业生,目前在谷歌担任研究科学家,专注于视频生成领域。他们在谷歌的很多重要研究都是围绕这一主题展开的。

技术架构 Q&A

SenseAI:基于LLM的视频生成模型会不会在长期比Diffusion类型的模型更具潜力和优势?LLM的架构和Diffusion架构图片和视频生成,未来是否会到一个趋势,就是各自生成的质量都非常接近,但是LLM架构在视频内容和逻辑上会更突出。还是会有别的趋势?

于博士:这是一个很好的问题,刚才问题当中所抛出的这些观点,我大体上是同意。因为现在在语言领域LLM发展的非常好,它有这个很强的逻辑能力,推理能力,然后同时,现在又具有这个非常好的多模态泛化能力,那么我是相信使用LLM作为backbone去做这个视频生成,在各方面的扩展性,这个逻辑一致性上会比将来的Diffusion模型更好。当然这是建立在我们现在的观测上,也许有一天这个Diffusion Model也会产生一定的进步。

但视觉质量上,将来可能是会逐渐饱和的,现在我们也看到一些这个产品出来,已经达到了一定程度上的可能性。而将来我们可能更多是在内容上去进行推进,然后其实这两个技术路线也不是非此即彼的,我们也可以这个结合LLM作为这个Latent Model(潜在模型)去利用它的这个多模态的zero shot和逻辑性。最后,我们再结合上一定的 Diffusion的高质量的能力去做最后一步,从Latent space回到Pixel space的过程。将来也可能是一个混合的架构。

SenseAI:介绍一下VideoPoet独特的架构设计

于博士:它是概念上非常简单的模型。我们就是利用了一个大语言模型结构的Causal的Transformer。然后这个Transformer,完全是在Token Space进行操作,那么我们的Token,包括图像和视频Token,然后也包括音频Token,同时还包括这个文本的这个Embedding。那么我们怎么把这些模态都统一到这个Token space,我们使用了每一个模态特有的Tokenizer 。这里面图片和视频,我们使用了我之前设计的MAGVIT-v2 Tokenizer。我们可以把图片和任意长度的视频Tokenize到一个空间里,然后同时它有很高的重建的效果,所以保证了我们Video的生成质量。

然后音频部分,我们使用的是SoundStream这是一个已经成熟的Tokenizer。然后文本部分,我们就是使用已有的T5去Embedding,这些模态混合在一块儿,然后我们进行大量的多模态,多任务的预训练。使得他能够进行文生视频,图生视频、视频生音频,风格转换以及视频编辑等等其他各种应用。

(参考:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html)

SenseAI:把这个LLM的基于一个多模态词汇表进行训练,然后能够生成就您讲的高保真、长时间,而且动作的复杂度很高的这类视频。我们想了解在里面语音模型它提供怎么样价值?我们对语言模型的选择会有很高要求吗?

于博士:其实在这个里面,language model是比较重要的一个模型。当然我们说这些tokenizer也很重要,那 tokenizer其实对每个模态进行一定比例的压缩,然后使得language model更好的学习。而最后,我们把所有的模态都放上token ,然后这里面的每一个生成任务,都是由这个language model它在进行学习的,然后它在大规模的预训练之后,可以进行很好的这个generalization以及transfer。

对于model的选择有很高的要求,目前来看,我们需要不小的参数量来放在这个language model里面,使得它才能学习到我们目前展现出来这些能力。但是你说如果具体到这个LLaMA、 GPT还是PaML或者Gemini这种级别的architecture comparison,我觉得目前可能不会有那么大的影响。它是一个Causal Language Model这件事很重要。

SenseAI:这样也可以保证或是帮助我们的模型,随着backbone的进化而不断进化对吗?

于博士:对的,我们可以始终就是利用language space最新的这个研究来提升我们视频生成以及多模态的生成质量。

SenseAI:明白,因为前面你已经提到关于这个MAGVIT的tokenizer的使用了,所以我们想了解一下,对于这个tokenizer的选择上,我们其实很关注它的哪些性能,它对稳我们这个视频生成的稳定性上都提供怎么样的帮助,未来,我们可能还会尝试一些其他的怎么样的一些tokenizer?

于博士:对tokenizer其实是以transformer作为backbone的,就是language model的视频生成模型里面非常重要的一个模块,我们很早就开始做这个系列了,大概去年夏天的时候。那个时候最早我们做了一版这个3D tokenizer,当时是市面上最好的。然后我们基于这个tokenizer试图去scale up这个事情,transformer模型做到一定程度之后,我们就会发现它仍然被这个tokenizer bottleneck。

所以今年这个夏天左右的时候,我们就开始了这个MAGVIT-V2的tokenizer的研究,主要的目标有两个,一个是我们希望大幅提升这个视频的视觉的质量。同时,我们也希望能够尽可能利用更多的更大的词表。这是因为之前的视觉tokenizer,通常它只有1000到8000的词表大小。对于language model来说,这其实是非常小的,不太好发挥出它现在这么大规模参数的能力。而我们常见的语言模型,通常在200K左右,那么我们在MAGVIT-V2里面通过一个创新的quantization办法,使得我们的词表也可以scale到200K甚至更大。

然后同时我们在MAGVIT-V2里面进行了一个改动,就是我们不再用这个纯3D的model,我们已经发现它比2D要很好很多,但是其实比单纯的这个3D modeling更好的一个变种是causal 3D modeling, 就是我们的结合它视频在时间轴上的这个自然属性,永远只依赖前面的帧。然后这样的话使得我们第一帧就是单独的,使得它可以做图片和视频的 joint tokenization。同时,它可以做视频的无限长的tokenization,然后这个也在结合causal LLM的时候,使得我们对后面的token预测要简单很多,因为它永远是一个单向的dependency,

在未来的话,tokenizer我觉得还有很大的提升空间,因为目前来看,它仍然是一个很小的模型,只有几百million的参数,相比于我们的这个VideoPoet的Transformer来说是非常小的,然后在scalability上它可能仍然是一个bottleneck。然后我们会去探索如何把这个模型做大?如何去修改其中目前的一些训练的目标,比如说它仍然设计了一个GAN loss,没有那么稳定,那么有没有可能用diffusion或者consistency进行替代,这也是值得一个研究的课题。

(参考 https://magvit.cs.cmu.edu/v2/)

SenseAI:以后未来任何使用图片做图形encoding的地方都能用上这个tokenizer,如果是这样情况下,那么diffusion类型的模型有没有可能也能先用MAGVIT的tokenizer。有没有这类的可能?

于博士:这是非常好的问题,我们是希望未来需要使用图片encoder的地方都可以使用它。然后同时我们在进行MAGVIT-V2设计的时候也进行了多方面的评估。首先,我们在标准的这个benchmark上获得了一定效果;然后同时我们也使用它单纯进行了video compression,我们发现它在相同bandwidth下,它的compression quality就是在你重建出来之后,是比目前厂商用的H265要更好的。是和下一代的算法叫H266VVC,是可以打一个平手的。

当然目前的tokenizer,在压缩和解压缩过程中,它需要用到GPU或者CPU可能cost还会更大一点。然后第三点就是我们也进行了这个视频理解方面的这个评测,发现这个tokenizer的token对于自监督学习,然后用于动作识别等等的应用也是有帮助的。然后涉及到diffusion model,这也是一个非常好的问题。

最近也有另一个工作,它就是使用了MAGVIT-V2的encoder和decoder,然后在这个enorder和decoder的这个latent space里面做了一个latent diffusion,那么diffusion model一样可以用我们的tokenizer或者更准确的说,我们这一类tokenizer目前已经测试过几个transformer,全都是有非常好的性能。

SenseAI:关于这个动作的丰富性和合理性,一直是这个视频生成的一个问题。我们跟其他团队交流过程中,大家也会提到类似这个世界模型的这种概念就是对环境物体交互基础理解,可以解决这个问题,您对这方面怎么看,在这个方面上有没有持续的优化。

于博士:动作的丰富性,我觉得目前就是2023年,已经过去了,大家也看到了很多提升。这里面比较关键的点,在一开始的时候,大家都是从stable diffusion之类的模型初始化,它是一个二级的模型,然后我们给它稍微加一点temporal attention或者这个temporal convolution。试图把它改造成一个视频模型。那么这个过程中,它对时间的建模其实是比较弱的,所以使得我们看到它都不怎么动,动作的丰富性,这个幅度都比较差。

而这个MAGVIT系列就是,包括今年出来的其他一些工作都是使用了原生的3D建模。那么3D建模就是说我们同时去学习时间和空间上的这个变换。那么这样一来,我们获得的这个视频,它的动作幅度就会更大一些。连贯性会更好一些,当然,我们说局部的动作。

在更大的范围内,我们怎么能获得更连贯的,更加丰富的,甚至这个更加合理的动作,可能就要依赖我们中间这个大模型。随着它的参数量提高它能力的增强,就像你说的对世界的理解的更深刻了,可能它自己学习出了这个世界的物理规律,那么它生成出来的内容也就是遵循我们人类的常识,看起来就非常合理,我觉得是仍然需要前进一段时间,但是我是相信它的,这可能就是将来我们做多模态大模型的一条思路,可能语言不是那么必要的,但是我们通过这个原始世界的自然观察。

把这些规律学出来,这对模型提出了更高的要求,这也是值得未来研究的一个方向。

SenseAI:关于有一个小细节,这个论文的后半还也提到这个super resolution,您刚才说到其他的论文中,其实也都用到了这个,就我们现在就会在想,那是不是每一个视频生成的模型都需要用到这个?目前这方面的可探索空间有多大?目前的架构是否比较通用,尤其是对LLM和Diffusion类型,是不是都比较公平?

于博士:其实归根结底需要super resolution的原因是我们的原生的那个模型,它输出的这个分辨率、时长都比较低,所以我们需要为了能够获得更好看的效果。在后面再嫁接一个模型。最终来说,当我们能原生模型能够输出比较高的分辨率,像现在一些图像的工作可能就可以了,那么它就不再需要这个super resolution。

当然在现阶段,因为视频是一个这个维度比较高的领域,那么它对效率的要求也更高一些,可能还是需要仍然使用super resolution一段时间,然后架构上是否通用,目前我们用的架构在里面其实是一个mask的transformer。然后做super resolution,因为它会更快一些。它又不是Diffusion,它比Diffusion更快一些。而常见的diffusion model,他们会用这个diffusion objective自己去学一个super resolution,至少到目前为止,这条super resolution上的技术路线,大家还是没有很大程度的共享的,我觉得以后可能可以。

不过这里面其实有一个问题,就是super resolution,目前当然大家都teacher forcing,就是我用原始的低分辨率视频和原始的高分辨率视频去学习,而更好的办法可能是我用模型就是前一阶段模型的输出,是低分辨率到后面的高分辨率这样进行学习,这个叫student forcing,它会使得你这个distribution shift更小,而就需要对每个模型专门进行super resolution的训练,这个可能通用性就会下降。

SenseAI:我们对数据这块儿也很感兴趣,就是一直以来数据的收集和处理对视频生成来说也很关键,也想了解一下在Videopoets里面我们做了怎么样的选择工作,我们是否有一些大规模处理数据的方法或者工具?以及现在数视频类的数据的短缺,我们有没有注意观察到有一类可能对生成效果帮助很大,但是目前还没有被收集的数据类型?

于博士:数据的话,现在至少从很多工作来看,这个是对模型非常重要的一个点,但其实我们这个工作主要的关注点在模型这边,所以对数据处理是比较少的。我们也从其他研究工作中看到,对于数据的筛选,整理和标注是这个模型,特别是审美相关的生成质量影响非常大的一个点。

SenseAI:除了数据以外,其实这个论文中也提到,对于社会责任和公平上做了一些分析,这个也是非常有远见的设计,就是这方面您能讲一讲具体上怎么做,怎么去平衡的吗?

于博士:对这个是我们一些合作者进行了model的社会公平性分析,然后这个有一些非常有意思的现象,就是我们会发现这个模型的输出上,当我们去选定一组这个prompt,它会更偏好这个年轻人,比如说18到35岁。然后男性以及肤色较浅的人种。我们会观测到这样的现象,同时会努力去设计一些prompt去使得它最后输出的分布更接近于真实的分布。但是目前这个研究还比较早期,我们希望这些观测可以在这个。之后模型迭代的时候,我们从数据的角度进行优化,使得我们做出模型是更加负责任的,更加就是具有尽可能小的Bias。

SenseAI:我们也很好奇VideoPoet的下一步会在哪些地方持续做优化,包括像多模态的组合输入,我们这个language model内部的结构设计上会不会还有一些创新,而在性能上,我们希望会在哪些方面持续做优化。

于博士:确实,这个毕竟我们其实是最早把这个language model style的video generation做出来,其实这个模型还有很大的提升空间。那么language model给大家带来的想象空间是很大的,比如说它有很强的zero shot capability甚至in-context learning。那么一个发展方向就是我能不能进一步去scale这个model,它在预训练的时候可能并没有什么task specific design。

而是到inference的时候,我给他进行少量的instruction tuning或者甚至只是给他收几个example,然后教会他进行一些新的任务。比如说我们可以以非常小的代价让他学会video segmentation。那么这说明我们的模型可能本来就是对世界有一个很强的理解了,甚至比较用比较小的代价,让它能不能教会我这个牛顿定律。这些都是非常有意思的事情,就从科研角度;而从应用角度来说,我可以以非常低的代价去做customized generation。也是非常有意思的应用。

从性能上的优化来说,现在我们这一类模型,包括其他视频生成模型可能也一样。最大的bottleneck是我们生成的时间的长度。以及在固定时间长度下,我们希望能原生的出尽可能高的resolution 。那么这些就是回到这个LLM的backbone上。我们希望它对这个long context support能更强,比如说能到几百K。然后同时效率又不会下降太多,就是在一个合理的cost范围内,使得我们能够支持这个更长的更高分辨率的视频生成,然后同时它是在single task里面把这些东西都学了,那么它会对多模态的组合内容的,逻辑上的合理性都会有很大的提高。

SenseAI:我们近期其实也看到有确实有一些更多的优秀的视频的生成论文出来,您是否有这种感觉,就视频生成的文艺复兴时期要到了,现有架构的这种一些scaling的解决方案,在短期是不是还有一些新架构颠覆的机会?

于博士:对我们最近也看到非常多的工作,就是视频生成领域现在在蓬勃发展,然后我还是很有信心的,我觉得这个2024年可能这个视频生成会真的走向应用。你说到底是现有架构下的scaling,还是会有新架构,我觉得可能再过几个月,我们也许看还能看到一轮的技术迭代,我觉得到年底左右的时间,可能会走向成熟。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存