稳定扩散 - 架构



大型文本到图像模型已取得显著成功,能够根据文本提示合成高质量图像。稳定扩散就是其中一种用于图像生成的模型。它基于一种称为潜在扩散模型 (Latent Diffusion Model) 的扩散模型,由 CompVis、LMU 和 RunwayML 创建。

这种新的扩散模型通过在低维潜在空间而不是实际高维图像空间上应用扩散过程,减少了内存使用和计算时间。

稳定扩散中的三个主要组成部分是:

  • 变分自动编码器 (VAE)
  • U-Net
  • 文本编码器
Architecture of Latent Diffusion

变分自动编码器 (VAE)

变分自动编码器 (VAE) 包含两部分:编码器和解码器。在训练过程中,编码器将图像转换为低维潜在表示,用于正向扩散过程,即图像转换为噪声的过程。这些小的编码版本称为潜在变量 (latents),在每个训练步骤中都会重复应用噪声,作为 U-Net 模型的输入。

VAE 的解码器用于将低维表示转换回图像。由反向扩散过程生成的去噪潜在变量,即使用解码器将噪声转换为图像的过程。

U-Net

U-Net 是一种卷积神经网络,它预测噪声潜在变量的去噪图像表示。U-Net 的输入是噪声潜在变量,U-Net 的输出是潜在变量中的噪声。此步骤专门用于通过去除噪声潜在变量的噪声来获取实际的潜在变量。

该模型中 U-Net 的架构由 12 个块组成的编码器、中间块以及 12 个块组成的解码器组成。在这 25 个块中,其中 8 个用于下采样或上采样卷积层,其余的是主块,包含 4 个 ResNet 层和两个视觉转换器 (ViT)。

文本编码器

文本编码器是一个简单的基于 Transformer 的模型,它将输入标记序列转换为一系列潜在文本嵌入。稳定扩散应用了预训练的 CLIP 文本编码器,它生成与给定输入文本对应的嵌入。嵌入空间进一步用作 U-Net 的输入,还在 U-Net 的训练过程中为去噪噪声潜在变量提供指导。

广告