查看原文
其他

1秒1张图实时成画,2023文生图领域进化有多快?

阿虎 头号AI玩家 2023-12-16


作者 | 阿虎
编辑 | 卷毛


天下武功,唯快不破。1秒1张图,免费还开源。

11月28日,Stability AI在官网发布了开源文生图模型SDXL Turbo,可以做到文本生成图片实时响应。

“头号AI玩家”第一时间上手尝试了一下,相比DALL·E 3、Midjourney以及Stable Diffusion,SDXL Turbo生成效率非常快,能够做到实时微调图像,生成1张图片的时间基本控制在2秒以内。


据Stability AI官方介绍,SDXL Turbo是基于SDXL 1.0迭代而成,使用了全新的对抗扩散蒸馏技术(Adversaral Diffusion Distillatio),所需图像的生成步骤从50步减少到1步,并且不会损坏图片的质量。

“X”平台用户分享自己用SDXL Turbo在24秒内生成了256张图,用户“HylaruCoder”也称,4060Ti配置生成速度为0.3秒。


是不是没想到,文生图技术能进展这么快?

图片来源:Reddit;人工智能生成艺术1年前vs现在

一年前,AI只能生成一些大致的轮廓图片,而现在实时生图都不是问题,甚至连AI创作的漫画续作都已经出版销售,进入商用阶段。

11月22日,由AI辅助创作的《怪医黑杰克机器的心脏》这部作品正式出版销售。


一年过去,文生图领域进化到什么程度了?达到出版水准有多难?还有哪些亟待探索和解决的问题?“头号AI玩家”和一些创作者聊了聊。


1年前vs现在,文生图领域的极大改变


一直以来,GAN(生成对抗网络)方法是生成图像的标准模型。自GAN以后,AI绘画模型经过了几次迭代,陆续上线了DALL·E、Imagen、Diffusion,“头号AI玩家”此前做过相应的梳理和报道。


除了模型间的变化差异,从Disco Diffusion到Midjourney,再到SDXL Turbo,文生图效果还发生了怎样的改变?


“头号AI玩家”用相同的提示词进行了一组对比试验,上图是2022年8月Midjourney生成的图像,下图是同一组提示词于2023年11月底生成的图像。


2022年8月Midjourney生成图片

2023年11月Midjourney生成图片


上述两幅图相同提示词:Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠侠(左边)和德怀特·施鲁特(右边)在宾夕法尼亚州斯克兰顿的某个停车场里打架,戏剧性的灯光,照片逼真,单色,高细节。


可以看到,最明显的区别在于在场景创作上,AI已经能够清晰描绘出具体的场景,人物和场景有了明显的区分


另外,AI对于语句的理解和想象力有了极大的进步,能够勾画出两个人物的面部细节,并且在构图和透视上展现了一定的审美水平。


对于人物的动作解读也有显著不同,比如,下面以“一个跳舞的男人”为提示词生成的图片。


2022年9月,Midjourney生成的图片


2023年11月底,Midjourney生成图片


现在的文生图技术有效避免了像素化、模糊化的视觉缺点,能够生成更具有轮廓细节、更加清晰真实的图像。AI饱受嘲讽的“不会画手”,在这一年时间里也得到了进化。


相比一年前,速度大幅度提升的同时,生成的图片质量也并不逊色。


“X”平台上还有专门分享用AI生成蝙蝠侠的玩家。我们也用他分享的提示词生成了图片,和他之前的图片进行了对比。


左起为网友2022年8月Midjourney生成图片;“头号AI玩家”2023年11月Midjourney生成图片


使用同组提示词: Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠侠风格为艺术家Shepard Fairey,底部带有“希望”字样。


在漫画风格上,尽管生成的文字还是无法做到100%准确,但人物形象“Batman”生成形象更明确,对艺术家风格的理解也更细致,在颜色、元素组成上更丰富。


海外社交平台Reddit上,有不少网友对于人工智能艺术的迭代升级进行了讨论。


有网友表示,“这就像人们指出GPT-4有一些小瑕疵,并以此推断AI将在半个世纪内保持当前的能力,但他们一次又一次地错了。所以永远不要对人工智能下注”。



还有网友调侃,“和现在相比是:我无法根据您的请求生成图像,因为它不符合我们的内容政策(版权)”。


也有人质疑1年前有点夸张,应该是2年前吧,但确实有了肉眼可见的进步。



当然,我们也能从其他案例中找到文生图领域技术进化的痕迹。


今年年初,日本漫画师筱房六郎在“X”上发文称,AI绘画存在很大的问题,比如无法生成“长满青苔”的图像,也无法描绘“摔倒”的动作,人体的构造和关节都是错乱的。


他认为,人类漫画师扔掉画笔,转向AI还为时尚早。



不过,目光转向今年9月,日本漫画家Ume分享了他用AI生成的漫画。



Ume表示,AI现在能画出许多表情和一定程度的姿势,对于人物刻画的细节也比之前成熟不少。


但他还提出,让AI生成俯视图或者仰视图,或是改变作画视角还是非常困难。



AI作画达到出版水准,有多难?


文生图技术的快速发展,使得用AI创作漫画成为一个必然趋势。

早在2020年,日本研究人员就利用深度学习技术(StyleGAN),分析了知名漫画家手冢治虫的经典作品,创造了世界上第一部由AI生成的漫画《PHAEDO》(Tezuka 2020项目)。

而今年,为了纪念手冢治虫的作品《怪医黑杰克》连载50周年,官方推出了由AI辅助创作纪念作《怪医黑杰克机器之心》,希望借助人工智能,将手冢治虫的创作理念延续下去。

《哆啦A梦》中关于重现手冢治虫经典制作的情节成真

从《怪医黑杰克》公布使用AI创作续集以来,社交平台上关于AI创作漫画的讨论从未间断。

有网友留言称,日本有一批最具才华的漫画师,但是却靠AI出版漫画,很怪。

“X”平台上有漫画爱好者认为,“这些角色都很完美,因为他们是由人类创作的。”


当然,也有人表示奇怪,“AI能写10000种剧情,但有1种表达了手冢治虫的想法吗?”

但AI生成漫画并没有那么简单,后期工作也远比想象要多

有漫画师提到,《怪医》这个项目更像是研究,而不是漫画创作。

在故事情节方面,项目组成员需要将漫画原本的世界观、剧情、对白、人物设定进行解构,投喂给GPT-4,然后让GPT-4学习手冢治虫此前作品的画风和思想,生成可能的台词和分镜。

然后将这些台词、故事内容交由Stable Diffusion处理,最后由项目小组成员整理归纳,完善成具备出版条件的作品。

据NHK报道,为了能够成功模仿手冢治虫的风格,AI借鉴了6000多张角色图片,识别了手冢治虫65部作品。

大量的数据投喂下,AI生成了基本的剧情和人物设定,但最终精细的调整和设计,还是由人类创作者来完成。

数字艺术家“脑玩家mindplayer”今年3月也发布了一部AI辅助创作的漫画《ARES觉醒》。

《ARES觉醒》

她告诉“头号AI玩家”,用AI辅助创作漫画通常需要列好故事提纲,列明章节后再交给ChatGPT进行细化调整,它可以细化到每一页具体的分镜内容。

“但分镜排版比想象的难很多,如果完全没有美术基础,分镜这个坎都过不去”。

“脑玩家mindplayer”以下面这张AI绘画封面举例。她认为,对于个人创作者来说,简单生成儿童绘本风格的漫画会简单一些。


但如果要达到日漫出版的效果,没有一定的绘画水平和后期工作,很难完成。再加上调整和修改的成本,得不偿失。

漫画师三三对“头号AI玩家”提到,AI现在唯一的缺点就是“生成什么,你就得要什么”,有时候创作意图和灵感都很难用语言表达,更别说靠AI进行解释和渲染。

不过,在手冢治虫这部漫画出版之前,日本早已出版过首部由AI生成技术完成的漫画作品《赛博朋克桃太郎》。

图片来源:《CyberPunk PeachJohn》作者Rootport

彼时,这部漫画的部分细节模糊,构图简单,透视关系紊乱,甚至遇到AI无法生成的近景时,创作者Rootport也直接摆烂,“这个手部特写实在没办法了”。

从去年年底到现在,AI生成技术在可控性和一致性上也有了长足的进步。

左边为人工手绘;右边为AI实时生成

一些漫画师表示,由于模型的分辨率提高了,手部细节已经可以通过微调生成,比起当时轮廓和大致框架都不正确,已经是一个质的飞跃。

“脑玩家mindplayer”也提到,使用同一套提示词,目前SDXL和DALL·E 3的出图质量都不错。

“现在很多功能都被开发出来了。图片能够进行扩展微调,需要的时间成本起码变低了。”三三补充说道。

令人惊讶的并不是AI自动生成漫画,而是AI迭代速度之快,漫画师们需要数十年磨练的笔触技巧,AI在一年之内就可以达到,完成进化。

当然,目前AI生成图像还存在一些缺陷,比如还没有开源软件能让角色保持连续性,视觉上更容易生成大全景,分镜刻画困难,场景一致性问题等等。但无论是《怪医黑杰克》AI续作的成功出版,或是不同玩家尝试的AI辅助生成漫画,都为文生图的进化添上了浓墨重彩的一笔。

AI现阶段能够辅助我们做到什么程度?或许每一部作品都是答案。

文末彩蛋:体验网址👉:https://clipdrop.co/,里面集成了Stability AI自己开发的应用,包括SDXL、SDXL Turbo,感兴趣的玩家可以在线体验。

SDXL需要较高的内存和显存,如果电脑配置不是特别高的话,不用下载模型,Clipdrop线上也值得一玩。




「内容好生意」2024新榜大会来了,就在1月23-24日北京望京凯悦


作为由新榜主办的一年一度的内容行业盛会,我们将邀请这个行业最具代表性的创作红人、明星机构、品牌操盘手等前沿玩家,复盘AIGC、短剧、出海、品牌直播等行业热点背后的内容生意。


目前大会报名已正式开启,想了解更多信息或报名,请点击文末“阅读原文”,期待与你相见。



「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存