首页 > Ai资讯 > Ai知识库 > 说真的，SDXL究竟藏着多少秘密，也许没人知道

说真的，SDXL究竟藏着多少秘密，也许没人知道

发布时间：2024年06月06日

我是真的没想到，SDXL发布后，我围着它写了三篇文章。

我更没想到的是，写文章的间隙，我还是在围着它转圈圈。

探索功能，线上部署，更新工作流……我只想告诉你，SDXL不是一个绘图模型那么简单，在它里面，隐藏着太多不为人知的秘密。

跟上次一样，这篇文章没有任何标题党，也不制造任何焦虑，我只是想告诉你我看到的东西，那些正在发生和即将发生的事情。

1. 为什么SDXL存在着隐藏属性

在解释这个问题之前，我们先拿GPT举例子。

众所周知，今天我们看到的生成式对话人工智能，包括GPT，Bard以及一众追随者，他们都是用大量文字“喂养”出来的庞然大物。

正所谓读书百遍，其义自见。AI虽然并不是真的从心理上明白你在说什么，但毕竟它已经背诵了人类有史以来的所有文献书籍，光靠猜，它也能一本正经的跟你胡说八道，看上去居然还有些道理。

同属生成式的AI绘图也不例外。与GPT不同的是，后者认字，前者识图。

但凡你炼过LoRA就不难理解：准备20张左右主题鲜明，背景干净的图，伴随着GPU的一阵咆哮，一个小模型就此诞生，从此数字世界又多了一种可以快速呈现的图形风格。

如果仅仅20张图片就能做到这样的效果，很显然，拥有着35亿参数的SDXL记下了海量图库，它能复现（瞎猜）的图像，同样是难以估算的天位数字。

以下这些信息，只是冰山一角。

2. 数字和单词

上篇文章已经提到过这件事，具体来说，你可用这样的提示词来描述：

画面主体+写字的地方+
Text/saying/writing/printing 等 + “单词/数字”

举几个简单的例子：

1girl hold a paper with
text"2023"

1boy,solo,wearing a Tshirt
printing"Hello World",

ad billboard with text"Coca
Cola",1coca cola logo,

迫不及待想尝试一下？先别急，分辨率请先了解一下。

3. 画人物的分辨率

来自社群小伙伴@孙吾饭 168 的分享：

SDXL 人物变形修正，使用如下分辨率参数

1024x1024(1:1)

704x1408(1:2)

832x1152 (接近3:4)

768x1344(接近9:16)

640x1536(接近9:21)

比较容易误用的分辨率: 1024x1536，这是根据过去512x768的习惯沿用过来，想要同样的比例生成图片，应该用704x1408会获得更好的效果

浓郁的Midjourney味道不是吗。

4. 自带了多少logo？

你可能会觉得这个问题有点奇怪，是的，我一开始也是这么想：指望SD直接画logo不是个通用需求，随便搜一下网图就够了。

直到某次尝试，我随手编了套提示词：

(photorealistic:1.4),logo of company
toyota,white background

我本来以为只是个意外，随手改了品牌：

(photorealistic:1.4),logo of company
VOLKSWAGEN,white background,

接下来，还有这些

如果你把世界500强公司名称输进去，你大概率会看到它能在一定程度上复现这家公司的logo——区别在于，越是直接面对消费者的公司，logo复现程度越高。

或者换句话说，广告打的越多，AI获取的直接素材就越多，那么完整复现的概率就越大。

很可惜的是，对于国内公司的品牌logo，除了部分全球知名的品牌，其他复现的程度比较低。这会不会是一个补充内容的机会？

(photorealistic:1.4),logo of company
huawei, white background,

如果你问关注画logo是为了什么，那当然是为了做广告啊。

你发现了吗，到目前为止，我都没有写反向提示词，因为根本不需要！甚至连masterpiece，best quality这些常用起手式，一次都没写。

别着急，咱们才讲了一半，请继续往下看。

5. 自带了多少商品特征？

这恐怕是个难以穷举的问题，要知道作为AI出图的特征之一，每张图都有对应一系列设定的唯一seed，有点像图片身份证的意思。

Seed的数字可以到十位数，也就是说，仅仅对应一套设定，就有10亿种各不相同的可能。

具体到SDXL这里，如果你在尝试上面的logo复现，你一定会在不经意间看到品牌+产品同时出现。

比如提示词：

(photorealistic:1.4),logo of company
tesla,white background

有概率会出现：

进一步，你可以尝试提示词：

1car of Tesla model3, 1Tesla
logo,solo,side view

出图：

说真的，要不是亲眼所见，我是不会相信在没有插件或者LoRA的帮助下，主模型仅用提示词就能做出这种效果。如果贴上个logo，是不是一款简约的海报就出炉了。

对了，logo自然也是能直接生成的：

更进一步，为了满足我的好奇心，我用XYZ脚本跑了一系列车企品牌对比：

(photorealistic:1.4),1car of
toyota,1toyota logo,solo,side view,

Negative prompt: bad-picture-chill-75v
BadDream badhandv4 EasyNegative FastNegativeV2 ng_deepnegative_v1_75t
UnrealisticDream,

Steps: 25, Sampler: Euler a, CFG scale: 7,
Seed: 1830121956, Size: 1440x1024, Model hash: 31e35c80fc, Model:
sd_xl_base_1.0, Clip skip: 2, ENSD: 31337, Version: v1.5.1

脚本的设置如下图所示。具体的意思是提示词中的“toyota”会依次被列举出的其他词逐一替代，并且每个词都会执行一遍出图，最后形成一个长条形对比图

然后你就会看到下面这个样子（建议点击看大图）

随便放大一张：

这出图质量，你说它是汽车品牌官网图也并不过分。

同样的方式，你会发现，外资品牌出图表现比较稳定，而对国产品牌并不那么友好，至少在车辆这个品类上是这个情况。

再往前一步，你可以换成不同的产品/品牌提示词对比出图，这完全取决于你的想象力天花板。我只想提醒你，出图很花时间，切记到点睡觉，不要熬夜伤身。

插件上线之后，SD直出品牌广告/电商广告图，很可能不会像现在这样麻烦。

还有refiner这个模型，篇幅太长，留到下次再讲吧。

最后，我们的云端SD已经更新了SDXL模型。在80G的A800 GPU支撑下，2K出图毫无压力。

没有胡里花哨的概念，我们只想做一款人人都能用得上的专业AI产品，让AIGC这个概念，成为看得见摸得着的生产效率工具。

在我们建立的SD社群里，只做三件事：

不断分享Stable Diffusion使用技巧，聆听各位对云端SD的建议和反馈，以及每周发放的免费体验券。

所以，再一次，欢迎你来见证我们成长的每一步。

出自：https://zhuanlan.zhihu.com/p/648075356

从0到1基于ChatGLM-6B使用LoRA进行参数高效微调对于AI，我们现阶段可以有的态度

说真的，SDXL究竟藏着多少秘密，也许没人知道

最新工具