隐空间扩散模型（LDM）学习笔记

前言

这段时间在项目中接触到了LDM，很早之前了解过GAN，感觉二者还是有很大的不同，因此阅读了论文原文以及网上的公开介绍，结合自己的理解总结了一下，方便后续查看。如涉及到其他网络著作权，可联系删除。这篇笔记主要围绕隐空间扩散模型优势、稳定扩散模型原理、隐空间机制、生成模型部署训练以及图像生成等方面进行阐述说明。

论文原文： High-Resolution Image Synthesis with Latent Diffusion Models GITHUB代码链接：https://github.com/CompVis/latent-diffusion

1. 隐空间扩散模型的优势

图像合成是最近发展最引人注目的计算机视觉领域之一，也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成，目前主要是基于似然的模型，自回归（autoregressive, AR）transformers 中可能包含数十亿个参数。相比之下基于GAN的图像合成主要局限在了可变性相对有限的数据，其对抗学习过程难以扩展到建模复杂的多模态分布。最近，根据去噪自编码器（denoising autoencoders）层次结构构建的扩散模型已在图像合成及其他方面取得了可观的成果，同时取得了类条件图像合成（class-conditional image synthesis）和超分辨率（super-resolution）中的最先进成果。除此之外，作为基于似然的模型，它们不会像GAN那样存在模式崩溃和训练不稳定性问题；并且，通过大量利用参数共享，它们可以对自然图像的高复杂分布进行建模，而无需像AR模型那样需要数以亿计的参数。然而，普通的基于似然的模型，如DM，为了在训练和评估过程中对微小细节进行建模，其需要在RGB空间反复进行函数估计和梯度计算，因此消耗了极高的存储空间和计算资源。例如，训练出一个强大的DM通常需要数百个 GPU days，而生成50000个样本则需要在单个A100 GPU上训练大约5天。隐空间扩散模型则是通过“感知压缩”和“语义压缩”达到感知上等效、但计算上更合适的生成效果。其并没有使用传统的过度空间压缩减少计算消耗，而是利用自编码器的设计生成一个“隐空间”，在这个低维度的空间进行学习训练，减少了计算复杂度。

2. LDM的原理和流程

隐空间扩散模型（Latent Diffusion Model，LDM）分离了压缩学习和生成学习阶段，其结构如下图所示。在设计方面，通过设计使用自编码器，模型的正向扩散和反向生成都在从感知上与图像空间等效的“隐”空间中进行学习，抛弃掉不必要的图像细节同时降低了计算复杂度；利用从UNet 架构继承的DM的归纳偏置，

相关任务

为什么有时闭眼也可以看到五颜六色的光？｜趣问万物

打印机硒鼓怎么加墨粉

手机流量监控软件哪个最准

FPS游戏哪些值得玩好玩的FPS游戏排行榜前十

星际联盟