说真的,SDXL究竟藏着多少秘密,也许没人知道
发布时间:2024年06月06日
我是真的没想到,SDXL发布后,我围着它写了三篇文章。
我更没想到的是,写文章的间隙,我还是在围着它转圈圈。
探索功能,线上部署,更新工作流……我只想告诉你,SDXL不是一个绘图模型那么简单,在它里面,隐藏着太多不为人知的秘密。
跟上次一样,这篇文章没有任何标题党,也不制造任何焦虑,我只是想告诉你我看到的东西,那些正在发生和即将发生的事情。
1. 为什么SDXL存在着隐藏属性
在解释这个问题之前,我们先拿GPT举例子。
众所周知,今天我们看到的生成式对话人工智能,包括GPT,Bard以及一众追随者,他们都是用大量文字“喂养”出来的庞然大物。
正所谓读书百遍,其义自见。AI虽然并不是真的从心理上明白你在说什么,但毕竟它已经背诵了人类有史以来的所有文献书籍,光靠猜,它也能一本正经的跟你胡说八道,看上去居然还有些道理。
同属生成式的AI绘图也不例外。与GPT不同的是,后者认字,前者识图。
但凡你炼过LoRA就不难理解:准备20张左右主题鲜明,背景干净的图,伴随着GPU的一阵咆哮,一个小模型就此诞生,从此数字世界又多了一种可以快速呈现的图形风格。
如果仅仅20张图片就能做到这样的效果,很显然,拥有着35亿参数的SDXL记下了海量图库,它能复现(瞎猜)的图像,同样是难以估算的天位数字。
以下这些信息,只是冰山一角。
2. 数字和单词
上篇文章已经提到过这件事,具体来说,你可用这样的提示词来描述:
画面主体+写字的地方+
Text/saying/writing/printing 等 + “单词/数字”
举几个简单的例子:
1girl hold a paper with
text"2023"
1boy,solo,wearing a Tshirt
printing"Hello World",
ad billboard with text"Coca
Cola",1coca cola logo,
迫不及待想尝试一下?先别急,分辨率请先了解一下。
3. 画人物的分辨率
来自社群小伙伴@孙吾饭 168 的分享:
SDXL 人物变形修正,使用如下分辨率参数
1024x1024(1:1)
704x1408(1:2)
832x1152 (接近3:4)
768x1344(接近9:16)
640x1536(接近9:21)
比较容易误用的分辨率: 1024x1536,这是根据过去512x768的习惯沿用过来,想要同样的比例生成图片,应该用704x1408会获得更好的效果
浓郁的Midjourney味道不是吗。
4. 自带了多少logo?
你可能会觉得这个问题有点奇怪,是的,我一开始也是这么想:指望SD直接画logo不是个通用需求,随便搜一下网图就够了。
直到某次尝试,我随手编了套提示词:
(photorealistic:1.4),logo of company
toyota,white background
我本来以为只是个意外,随手改了品牌:
(photorealistic:1.4),logo of company
VOLKSWAGEN,white background,
接下来,还有这些
如果你把世界500强公司名称输进去,你大概率会看到它能在一定程度上复现这家公司的logo——区别在于,越是直接面对消费者的公司,logo复现程度越高。
或者换句话说,广告打的越多,AI获取的直接素材就越多,那么完整复现的概率就越大。
很可惜的是,对于国内公司的品牌logo,除了部分全球知名的品牌,其他复现的程度比较低。这会不会是一个补充内容的机会?
(photorealistic:1.4),logo of company
huawei, white background,
如果你问关注画logo是为了什么,那当然是为了做广告啊。
你发现了吗,到目前为止,我都没有写反向提示词,因为根本不需要!甚至连masterpiece,best quality这些常用起手式,一次都没写。
别着急,咱们才讲了一半,请继续往下看。
5. 自带了多少商品特征?
这恐怕是个难以穷举的问题,要知道作为AI出图的特征之一,每张图都有对应一系列设定的唯一seed,有点像图片身份证的意思。
Seed的数字可以到十位数,也就是说,仅仅对应一套设定,就有10亿种各不相同的可能。
具体到SDXL这里,如果你在尝试上面的logo复现,你一定会在不经意间看到品牌+产品同时出现。
比如提示词:
(photorealistic:1.4),logo of company
tesla,white background
有概率会出现:
进一步,你可以尝试提示词:
1car of Tesla model3, 1Tesla
logo,solo,side view
出图:
说真的,要不是亲眼所见,我是不会相信在没有插件或者LoRA的帮助下,主模型仅用提示词就能做出这种效果。如果贴上个logo,是不是一款简约的海报就出炉了。
对了,logo自然也是能直接生成的:
更进一步,为了满足我的好奇心,我用XYZ脚本跑了一系列车企品牌对比:
(photorealistic:1.4),1car of
toyota,1toyota logo,solo,side view,
Negative prompt: bad-picture-chill-75v
BadDream badhandv4 EasyNegative FastNegativeV2 ng_deepnegative_v1_75t
UnrealisticDream,
Steps: 25, Sampler: Euler a, CFG scale: 7,
Seed: 1830121956, Size: 1440x1024, Model hash: 31e35c80fc, Model:
sd_xl_base_1.0, Clip skip: 2, ENSD: 31337, Version: v1.5.1
脚本的设置如下图所示。具体的意思是提示词中的“toyota”会依次被列举出的其他词逐一替代,并且每个词都会执行一遍出图,最后形成一个长条形对比图
然后你就会看到下面这个样子(建议点击看大图)
随便放大一张:
这出图质量,你说它是汽车品牌官网图也并不过分。
同样的方式,你会发现,外资品牌出图表现比较稳定,而对国产品牌并不那么友好,至少在车辆这个品类上是这个情况。
再往前一步,你可以换成不同的产品/品牌提示词对比出图,这完全取决于你的想象力天花板。我只想提醒你,出图很花时间,切记到点睡觉,不要熬夜伤身。
插件上线之后,SD直出品牌广告/电商广告图,很可能不会像现在这样麻烦。
还有refiner这个模型,篇幅太长,留到下次再讲吧。
最后,我们的云端SD已经更新了SDXL模型。在80G的A800 GPU支撑下,2K出图毫无压力。
没有胡里花哨的概念,我们只想做一款人人都能用得上的专业AI产品,让AIGC这个概念,成为看得见摸得着的生产效率工具。
在我们建立的SD社群里,只做三件事:
不断分享Stable Diffusion使用技巧,聆听各位对云端SD的建议和反馈,以及每周发放的免费体验券。
所以,再一次,欢迎你来见证我们成长的每一步。
出自:https://zhuanlan.zhihu.com/p/648075356
免费调用Grok 2.0模型生成图片