熟悉Midjourney的朋友应该已经知道,Midjourney有一个非常强大的功能:图像混合。在前面的文章《Midjourney新玩法,img2img超强效果》中,我也介绍过。除了当时介绍的功能外,目前最新版的混合模式更加强大,这部分以后我会抽时间详细介绍。今天想说的是这个功能一直是Midjourney的独家绝技,Stable Diffusion是没有的,但在开源的大背景下,一直有开发者在探索类似的技术,今天介绍的就是Stable Diffusion版的图片混合功能。前段时间有开发者通过微调模型实现了图像混合的功能。
并且提供了在线演示版:https://huggingface.co/spaces/lambdalabs/image-mixer-demo
用户可以输入1-5张图片或文本,并可单独设置每个输入项的强度,最终混合生成新的图像。类似的功能已经开始出现在Stable Diffusion领域。近期又有开发者公布了一个新的技术PEZ Dispenser,详细技术介绍和演示可以看这个网址:
https://huggingface.co/spaces/tomg-group-umd/pez-dispenser
但对普通用户来说,产品化的技术才能更容易理解和实际应用,所以今天给大家介绍的就是将上面的技术真正融合进了产品中。开发这个功能的仍旧是前面介绍过的Krea.ai这个网站,前面的文章《AI绘画的新方向:一站式项目管理,试用KreaAI的新画布!》已经介绍了他们的一个独有功能:画布管理。在那篇文章末尾,我曾提到希望随着技术的不断进步,包括图像混合在内的更多功能也能出现在他们的产品中。没想到这么快他们就上线了图像混合功能,可以清晰地看到开源程序Stable Diffusion的迭代是非常迅速的。从这里也可以看到Stable Diffusion开源的好处,一个开发者研究出的技术很快就能被另外的开发者采用并产品化。上面就是生成图像部分的界面,可以看到新增了添加图像的选项。我会结合上次介绍的画布功能一起展示,也可以再次体验画布功能的强大。每一个项目演示都可以有一块画布,例如目前的画布是这样。
先看一下最简单的一种应用,先加载一张纹理图片,然后输入最简单的提示语:Winter coat,futuristic design
看一下简单的文本和图像的混合效果,我把所有内容都放到画布上展示。可以清楚地看到原始图像和文本提示很好的结合在了一起。再看一下大图。可以看到我们用最简单的提示语,结合原始素材,就可以生成非常好的效果。
我再次用左侧的图片,叠加简单的提示词Living Room,生成了右侧的图像。左上为原始图片,其余三张是用最简单的提示词分别生成的卧室、书房、厨房的效果,没有用任何其他修饰用的提示词,可以看到生成的效果具有统一的风格和色彩。
这个技术还支持将两张图片混合在一起,生成一张全新的图片。这两张图片可以是任意的图片,它们的风格、内容和其他特征都会影响最终生成的图片。混合图片的过程是通过内部的算法实现。这次我没有找素材,直接在程序里生成了一张猫咪的图像和一张梵高星空的图像,随后不添加任何提示语,直接混合两张图片生成了新的图像。上面这张图片可以看到,当混合生成新图片时,AI 可以继承原始图片的样式、风格和构图。原始特征会影响最终生成的图片外观和风格,使其看起来更加一致和连贯。这对于那些希望保持图片的特定风格和外观的用户来说非常有用。上面两张是原始图片,下面两张是不使用提示词,直接混合生成的图片。建筑形式有机的结合在了一起。除了混合图片,此功能还可以在多张图片基础上叠加文字提示语,生成全新的内容。这对于那些希望自己控制图片的主题内容,同时能继承原始图片某些属性的需求很有帮助。以上就是叠加文字提示,混合原始图片生成的各种风格建筑。
左侧动漫风格人像简单增加photorealistic,得到右侧的逼真人像。
以上就是Stable Diffusion版的图像混合功能演示,由于这个功能还在内测中,目前只提供了图像混合的功能,还没能实现分别控制图像权重、提示语权重比例,但可以看出已经实现了基本的混合效果,未来随着精确的参数控制,这个功能将更加强大。在文章已经写完时,我又看到一篇新的论文,谈到了一种新的影响文本扩散的方法,可以增强所有模型的生成效果,并且使SD1.5版本的模型都具有深度图功能,我仿佛已经看到各个模型、应用的技术人员都在忙着增加调整他们的程序,开源的Stable Diffusion还是值得期待的。
感兴趣的朋友可以去体验一下,没有权限的可以申请一下白名单,目前我也不清楚他们等待名额发放的范围有多大。https://forms.gle/nTXdoCaWkqGhN5jK9
根据你的喜好,推荐阅读以下AI绘画内容:
对写作者最好的支持就是
转发、点赞、关注、打赏