stable diffusion是如何处理提示词,并且对其渲染?
2023-09-06 阅读 12
Stable Diffusion 先把提示词用分词器(基于 BPE 的 tokenizer)切成 token,送入文本编码器(通常是 CLIP 的文本分支)得到一组向量嵌入,这些嵌入作为条件信息通过 cross‑attention 注入到 U‑Net 的每一层。图像生成按扩散过程反向迭代:U‑Net 在每一步预测噪声并根据文本条件修正,常用的 classifier‑free guidance 会同时用有条件和无条件(或负面提示)嵌入计算两个噪声预测,再按一个放大系数组合以增强对提示的遵从度。最后把生成的潜变量通过 VAE 解码成像素图。需要注意提示有长度限制,超长会被截断,负面提示通常作为无条件分支的替代以抑制不希望的特征。
更新于 2025年12月26日