聊聊Stable Diffusion 1

AIGC已经是大势所驱,设计师要如何不被AI所替代,是我经常思考的问题,“觉得会被替代、对AI产生恐惧”,产生这种情绪只因我们不了解AIGC,因此我想我们应该大胆迎接,深入了解。基于此,我早已投入到学习的行列中了,这段时间以来,我学习stable diffusion以及comfyui的相关知识,并且想通过写文章的方式将这些知识总结复盘。

本文章优先介绍下stable diffusion,理解了stable diffusion原理,comfyui就比较简单了,两者原理是互通的。再加上现在市场很多AI生成图片的软件工具也是基于stable diffusion的逻辑去设计的,所以了解stable diffusion的运行原理,帮助我们掌握其他AI生成图片的软件工具。

一、Stable Diffusion的来源

Stable Diffusion(简称SD)是2022年发布的一个深度学习文本到图像生成模型,由慕尼黑大学的CompVis研究团体首先提出,并与初创公司Stability AI、Runway合作开发,同时得到了EleutherAI和LAION的支持。

二、Stable Diffusion的功能

它可以实现的功能有很多,可以根据文本的描述生成指定内容的图片(图生图),也可以用于已有图片内容的转绘(图生图),还可以用作图像的局部重绘、外补扩充、高清修复,甚至是视频的“动画化”生成。

三、Stable Diffusion的原理

Stable Diffusion使用的是Latent Diffusion Model(潜在扩散模型),它通过使用经过训练的编码器(VAE中的E)将全尺寸图像编码为较低维度的图像,然后再在潜空间内进行正向扩散过程和反向扩散过程。再经过训练的解码器 (VAE中的D),将图像从其潜在表示解码回像素空间。

该模型由下图所示的3个部分组成:pixel space(像素空间)、latent space (潜空间)、conditioning(条件)。

聊聊Stable Diffusion 1

稳定扩散过程:

  • 感知图像压缩(Perceptual Image Compression):图3中最左侧红框部分是一个VQ-VAE,用于将输入图像x编码为一个离散特征z。
  • LDM:图3的中间绿色部分是在潜变量空间的扩散模型,其中上半部分是加噪过程,用于将特征Z加噪为ZT 。下半部分是去噪过程,去噪的核心结构是一个由交叉注意力(Cross Attention)组成的U-Net,用于将ZT还原为Z 。
  • 条件机制(Conditioning Mechanisms):上图的右侧是一个条件编码器,用于将图像,文本等前置条件编码成一个特征向量,并将其送入到扩散模型的去噪过程中。

四、Stable Diffusion(Latent Diffusion Model)的特点

与Diffusion Models和GAN模型相比,Stable Diffusion(Latent Diffusion Model模型)具备更快速、更稳定的特点。

  • 更快速:与Diffusion Models相比,Latent Diffusion Model模型通过减少噪声的数量和步骤,从而减少模型的训练时间。
  • 更稳定:与GAN相比更稳定,GAN作为是早期的图像生成模型,通过生成器(Generato)与判别器(Discriminator)不断对抗进行训练。但生成的图片存在对输出结果的控制力较弱,容易产生随机图像、分辨率比较低的问题。

最后,这篇文章初步介绍了Stable Diffusion的原理和特点,下一篇文章我想聊一聊自己是如何使用Stable Diffusion这个工具以及后续的一些实战案例。敬请期待!

数据来源:

https://zhuanlan.zhihu.com/p/667057805

https://blog.marvik.ai/2023/11/28/an-introduction-to-diffusion-models-and-stable-diffusion/****https://techvify-software.com/what-is-stable-diffusion/

https://developer.baidu.com/article/details/3222941

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部