查看原文
其他

AI只能随机绘制图像?如何控制Stable Diffusion程序创作的方向?

穿行者2049 今说新语 2024-04-14
A beautiful sci-fi dream autumn landscape with a white castle, colorful autumn maple leaves, trees, satellite view, hyper detailed, dreamy, volumetric lighting.
我相信你现在已经接触过Disco Diffusion、Midjourney、Dall-E、Stable Diffusion、Nightcafe等 AI 图像生成程序了。无论你使用哪种工具,让我们感到兴奋的是,现在可以仅仅通过向程序提供简单的文本指令,它就会像上面的示例一样生成一些令人惊叹的图像。
但你也一定想知道,为什么不是每个人都能制作出我们在各种社交媒体上看到的,其他人做出的一些令人惊叹的作品呢?为什么我无法控制AI按照我的想法调整作品的发展方向呢?

一、“提示语”

第一个答案就在所谓的——提示语中。提示语是自然语言处理 (NLP) 中的概念。通常机器学习模型是使用数以百万计的数据点进行训练的,并且它们开始形成自己的知识库,因此人们永远无法真正弄清楚AI到底学到了什么。了解AI学到什么的最好方法是制作不同的提示语并查看我们得到的输出图像。
生成更好的文本到图像作品的关键在于对这些提示语知识有很好的理解。这可能是未来“提示语工程师”发挥作用的地方。
提示语工程师是目前网上炒的比较火的一个所谓职业,他们就是掌握编写提示语技术的人,他们可以提供结果更一致的提示语,并能灵活使用图像生成程序提供的大多数功能。至于未来是否会有这样的职业,我并不关心,在本文中,我将主要关注提示语和工作流程,并介绍编写好的提示语的细微差别,以及生成令人惊叹的图像的一些基本流程技巧。后续我还将更多的介绍一些提示语编写技巧。

基本提示

让我们看看两个提示语和它们生成的图像。
side profile car

industrial design side profile sketch of a futuristic car, illustration, copic marker style, modern vehicle,creative
就像你看到的,上方的图像更偏重现实世界的真实性,他基本是由AI选择出来的效果,没有你自己的想法。而下方的图像风格更加一致,并提供了我们自己定义的设计风格结果。
这也告诉我们,AI已经理解了工业设计草图的外观代表的意思,它还可以理解简单的指令,如侧视图、前视图、顶视图等。
让我们再看一个例子。
portrait of a humanoid
portrait of a humanoid with exposed brain made of complex mechanical parts, bokeh, Nikon, f 1.8, cinematic lighting, robotic, octane render
你可以看到,AI 知道更多提示语内容,可以帮助你进行更好的图像渲染。在这里,我们使用了它对特定相机 (Nikon)、镜头 F-Stop (f 1.8)、照明类型以及渲染引擎 (Octane) 的了解。
你对 AI 已经学到的知识了解得越多,就越能利用好它,而了解它的最佳方法就是尽可能多地使用它。

我们已经知道了什么?

那么,有没有一份完整的 AI 已学习到的知识列表呢?嗯,应该不会有,或者有也没有公开过。但是网上有很多用户总结出的各种艺术家、风格等列表,当然,AI 可以理解哪些内容其实在各个展示AI作品的网站上也都可以看到,但最终还是需要你自己总结和积累使用经验。
从我们使用AI的已有经验中,大体知道 AI 可以理解以下内容:
  • 不同的艺术风格
    ——日本动漫、蒸汽朋克、赛博朋克、后现代、超现实主义等。
  • 著名和流行的艺术家
    ——安迪·沃霍尔、达芬奇、莫奈、沃特豪斯、毕加索、达利等。
  • 写实类型
    ——照片写实、超细节、锐利聚焦、大气等。
  • 渲染引擎
    ——Octane 渲染、VRay、虚幻引擎、光线追踪等。
  • 照明风格
    ——体积、电影、柔光箱、发光、边缘光等。
  • 相机位置
    - 广角拍摄、超广角拍摄、人像、低角度拍摄等。
  • 相机类型
    ——尼康、索尼、徕卡 M、哈苏等。
  • 摄影风格
    - 微距、鱼眼、宝丽来、Kodachrome、早期湿版等。
  • ISO值
    – 不同的 ISO 值来模拟胶片颗粒。
  • 分辨率
    ——高清、8K、全高清等。
除了上面这些类型的提示语关键词可以使用之外,在生成图像的过程中我们还可以通过控制下面的几个参数控制生成图像的走向和细节,比如:
  • Seed
    - 不同的数值可以定义生成的图像的随机性和唯一性。
    Guidance
    ——此参数设置你的图像包含AI多么强烈的“个性化”,你设置得越低,它就越自以为是
    质量和细节Step
    – 不同的Steps数可以生成不同质量和细节的作品,你可以定义任何你希望的数值。
  • 图片 URL
    – 可参考的初始化图片。
  • 初始化图片强度
    – Image Strength。
… 以及更多其他一些参数,所以下面我想先展示一些实例,然后介绍编写提示语和调整图像发展方向的过程。

提示语实例

世界末日的混乱

lots of people in front of a military vehicle, food distribution, apocalyptic, chaos, foggy, fantastic backlight, fight, Octane render, back light, cinematic, ISO 400, 8K.
热带雨林中未来的家
futuristic house in the middle of a rain forest, fill screen, organic shaped curved glass windows, modern interiors, night scene, fantastic lighting, octane render, 8K, ultra detailed,
控制不同的视角
Front view of beautiful woman running on dark red running track, low angle view, denim shorts, white sports vest, sunlight, high detaile

back view of beautiful woman running on dark red running track, high angle view, denim shorts, white sports vest, sunlight, .high detailed
画家和她的作品照片
a high quality professional studio photograph ,with beautiful detailed face of a happy female proudly showing off her huge wall sized mural painting of a beautiful oil painting by Van Gogh, hyper realistic
也许你以为我只是从AI随机生成的图像中挑选出比较满意的结果,实际工作流程并不是这样的。
二、使用AI程序的工作流程
正如你所知道的,在你沉迷于特定提示语和关键词时,你会变得非常投入,并且会不断惊喜地发现 AI 已经掌握了多少关键词,并且可以准确地描述你的想法。
但是大多数时候仍需要一个漫长的过程来实现完美的结果。在第一次尝试中,你很可能总是不会得到完美的结果。而很多时候,你发现好像无法控制图像的发展方向,只能看着AI随机的给你绘制出越来越多的图像。
那么这里面有没有什么诀窍呢?
让我们一起回顾一下上面展示的最后一个实例,并按照步骤演示我是如何实现这一目标的。
输入提示语后,这些是我得到的 4 个作品。

如你所见,Stable Diffusion 为我提供了一个很好的开始。我喜欢右上角的图像。这是我心中所想的结果,所以我要求 Stable Diffusion 为这张图片创造更多的变化。使用img2img功能生成的 4 个变体如下所示:

从这几个结果来看,就我而言,左下角的美女胳膊姿势和笑容看起来不错。所以我首先使用面部优化功能+Upscale功能,优化放大了她的面部,下面是优化放大后的图像。
我很喜欢它的发展方向,所以我再次创建了这张图片的变体并得到了这些结果,在此过程中,你可以调整Guidance的数值,微调提示语、更换不同服装色彩、样式、表情、发型获得不同的效果。

现在这这几张就是我脑海中想要的那种图像,右上角的那个好像是我最想要的,只是眼睛还有些怪异。所以我也使用面部修复和放大功能优化了她,得到下面的效果。

我真的很喜欢这张照片,眼睛和面部的表现非常好了,服装的皱褶也很逼真,胳膊的细节也很好。我当然可以在这里停下来,对于寻求质朴、优雅风格的人来说,这将是一个很棒的作品。但我也想尝试看看“img2img”功能还会对这张图片再做些什么。所以我重新调整Guidance:12,初始化图像的Image Strength:40制作了它,下面就是它产生的新图像:

我还是喜欢上一张未重制图像的质朴风格,但重制功能确实清理了一些杂乱,新的服装也很优雅。
从上面展示的工作流程可以看出,img2img是一项适用范围非常强大的功能,可让您提高图像的质量和风格的连贯性,并保持内容主题的不变。最终的结果完全取决于您的品味和您正在寻找的图形风格。如果在这个过程中,再结合我前面文章中介绍过的自定义模型,你也可以绘制一张自己站在梵高画作前的作品,是不是更有意思一些呢?

结论

所以如你所见,创作的基础也在于对工具的熟练掌握程度,通过这些文本到图像的具体参数调整和工作流程的变化,Stable Diffusion在创建一个好的图像道路上有很多可以做的工作。如果你掌握了正确的工具、参数、知识和流程,就可以开始使用 Stable Diffusion 创建一些令人惊叹的艺术和图形。
一方面,作为一名设计师,AI的出现对很多人来说听起来真的很可怕,但另一方面,我认为这是艺术行业和我们使用的工具的又一次演变和提升,一把好的工具能让你挖出更多的宝藏。
这一篇仅仅介绍了提示语和控制图像发展方向的技巧,下一篇文章我会详细介绍一些编写提示语中更重要的一些参数和内容。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存