查看原文
其他

​Stable Diffusion官方发布最新2.0版本

穿行者2049 今说新语 2024-04-14
与原始的V1版本相比,Stable Diffusion 2.0提供了许多重大改进和功能,以下是主要更新内容。

使用新的 OpenCLIP 文本编码器从头开始训练的 512x512 和 768x768 模型

Stable Diffusion 2.0版本包括使用全新的文本编码器(OpenCLIP)训练的文本到图像模型,该模型由LAION在Stability AI的支持下开发,与早期的V1版本相比,这大大提高了生成图像的质量。此版本中的文本到图像模型可以生成默认分辨率为512x512像素和768x768像素的图像。
这些模型在Stability AI的DeepFloyd团队创建的LAION-5B数据集的美学子集上进行训练,然后进一步过滤,使用LAION的NSFW过滤器删除成人内容。


使用Stable Diffusion2.0生成的图像示例,分辨率为768x768。
X4 Upscle放大扩散模型
Stable Diffusion2.0还包括一个新的Upscale放大扩散模型,可将图像分辨率提高4倍。以下是新的模型将低分辨率生成的图像(128x128)升级为更高分辨率图像(512x512)的示例。结合文本到图像模型,Stable Diffusion 2.0现在可以生成分辨率为2048x2048甚至更高的图像。
左:128x128低分辨率图像。右:Upscaler生成的512x512分辨率图像。
新的Depth2Image图像扩散模型
新的深度引导Stable Diffusion模型称为Depth2img,扩展了V1之前的img2img图像到图像功能,为创意应用提供了全新的可能性。Depth2img推断输入图像的深度,然后使用文本和深度信息生成新图像。
「深度图像(Depth Images),也被称为距离影像(Range Images),是指将图像采集器采集到的场景中各点的距离(深度)值作为像素值的图像,它直接反映了景物可见表面的几何形状,利用它可以很方便地解决3D目标描述中的许多问题。」


左侧的输入图像可以生成右侧的几个新图像。
Depth2img可以提供各种新的创意应用程序,提供看起来与原始版本截然不同的转换,但仍然保留了该图像的连贯性和深度:
Depth2img保持一致性。
更新的Inpainting模型
新版本还包括一个新的inpainting模型,在新的Stable Diffusion 2.0文本到图像上进行了微调,这使得智能快速地修改图像的某些部分变得超级容易。
更新后的inpainting模型在Stable Diffusion2.0模型上进行了微调。
根据官方介绍,Stable Diffusion优化后的模型,将努力实现在单个GPU上运行更流畅的目标

官方宣布将在未来几天内将这些模型发布到各个AI API平台(platform.stability.ai)和DreamStudio中。


推荐阅读以下AI绘画内容:



穿行者


喜欢可点赞、关注、转发、打赏支持!


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存