DALL-E - 架构



DALL-E 是一种人工智能模型,它根据用户提供的文本描述生成图片。它是 GPT(生成式预训练转换器)家族的一部分,并使用转换器模型来创建视觉内容。

DALL-E 主要依赖以下技术 -

  • 自然语言处理 (NLP) - 它帮助模型理解用户提供的文本描述的含义。
  • 大型语言模型 (LLM) - 它以一种传达语义信息的方式对文本和图像进行编码。OpenAI 开发了自己的 LLM,称为 CLIP,它是 DALL-E 的一部分。
  • 扩散模型 - 这主要用于生成图像。

对比语言-图像预训练 (CLIP)

CLIP 是 OpenAI 专为 DALL-E 模型的功能而开发的大型语言模型。它在许多图像及其关联的标题上进行训练,以弥合文本描述和图像之间的差距。顾名思义,“对比”模型将给定的文本提示与数据集中现有图像的标题进行比较,以检查输入是否与任何图像标题匹配。每个图像-标题对都分配一个相似度得分,并选择相似度得分最高的对。为了执行此任务,模型依赖于两个组件 -

  • 文本编码器 - 它将用户的文本提示转换为文本嵌入,即 DALL-E 可以理解的数值。
  • 图像编码器 - 与文本编码器类似,此组件用于将图像转换为图像嵌入。

现在,它比较文本和图像嵌入的值,并检查语义信息中是否存在相似之处,这称为余弦相似度。下面的表示将帮助您更好地理解 -

DALL-E CLIP Architecture

DALL-E 的工作原理

DALL-E 通过处理输入数据并将其转换为灵活的数据来执行生成任务。

DALL-E Working

模型的工作流程如下所述 -

  • 一旦提供了图像的文本描述,就会将其提供给CLIP 的文本编码器。使用 NLP 理解提示的含义,然后将其转换为捕获语义含义的高维向量表示。此向量表示称为文本嵌入。
  • 接下来,文本嵌入传递到先验,这是一种可以从概率分布中采样以生成真实图像的生成模型。
  • 在最后一步,一旦先验生成的图像嵌入通过扩散解码器,就会生成最终图像。
广告