聊聊Stable Diffusion 1

bwyw 2024-04-25 09:52:45

AIGC已经是大势所驱，设计师要如何不被AI所替代，是我经常思考的问题，“觉得会被替代、对AI产生恐惧”，产生这种情绪只因我们不了解AIGC，因此我想我们应该大胆迎接，深入了解。基于此，我早已投入到学习的行列中了，这段时间以来，我学习stable diffusion以及comfyui的相关知识，并且想通过写文章的方式将这些知识总结复盘。

本文章优先介绍下stable diffusion，理解了stable diffusion原理，comfyui就比较简单了，两者原理是互通的。再加上现在市场很多AI生成图片的软件工具也是基于stable diffusion的逻辑去设计的，所以了解stable diffusion的运行原理，帮助我们掌握其他AI生成图片的软件工具。

一、Stable Diffusion的来源

Stable Diffusion（简称SD）是2022年发布的一个深度学习文本到图像生成模型，由慕尼黑大学的CompVis研究团体首先提出，并与初创公司Stability AI、Runway合作开发，同时得到了EleutherAI和LAION的支持。

二、Stable Diffusion的功能

它可以实现的功能有很多，可以根据文本的描述生成指定内容的图片（图生图），也可以用于已有图片内容的转绘（图生图），还可以用作图像的局部重绘、外补扩充、高清修复，甚至是视频的“动画化”生成。

三、Stable Diffusion的原理

Stable Diffusion使用的是Latent Diffusion Model（潜在扩散模型），它通过使用经过训练的编码器（VAE中的E）将全尺寸图像编码为较低维度的图像，然后再在潜空间内进行正向扩散过程和反向扩散过程。再经过训练的解码器（VAE中的D），将图像从其潜在表示解码回像素空间。

该模型由下图所示的3个部分组成：pixel space（像素空间）、latent space （潜空间）、conditioning（条件）。

聊聊Stable Diffusion 1

稳定扩散过程：

感知图像压缩（Perceptual Image Compression）：图3中最左侧红框部分是一个VQ-VAE，用于将输入图像x编码为一个离散特征z。
LDM：图3的中间绿色部分是在潜变量空间的扩散模型，其中上半部分是加噪过程，用于将特征Z加噪为ZT 。下半部分是去噪过程，去噪的核心结构是一个由交叉注意力（Cross Attention）组成的U-Net，用于将ZT还原为Z 。
条件机制（Conditioning Mechanisms）：上图的右侧是一个条件编码器，用于将图像，文本等前置条件编码成一个特征向量，并将其送入到扩散模型的去噪过程中。

四、Stable Diffusion（Latent Diffusion Model）的特点

与Diffusion Models和GAN模型相比，Stable Diffusion（Latent Diffusion Model模型）具备更快速、更稳定的特点。

更快速：与Diffusion Models相比，Latent Diffusion Model模型通过减少噪声的数量和步骤，从而减少模型的训练时间。
更稳定：与GAN相比更稳定，GAN作为是早期的图像生成模型，通过生成器（Generato）与判别器（Discriminator）不断对抗进行训练。但生成的图片存在对输出结果的控制力较弱，容易产生随机图像、分辨率比较低的问题。

最后，这篇文章初步介绍了Stable Diffusion的原理和特点，下一篇文章我想聊一聊自己是如何使用Stable Diffusion这个工具以及后续的一些实战案例。敬请期待！

数据来源：

https://zhuanlan.zhihu.com/p/667057805

https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/

https://developer.baidu.com/article/details/3222941

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！