Imagen：Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

发表于 2023-11-15 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片阅读次数：本文字数： 2.3k 阅读时长 ≈ 2 分钟

和 DALL-E-2 类似过程，但是 Imagen
直接基于文本信息扩散为低分辨的图片编码，然后再使用超分辨率网络上采样。结构更简单)

1）提取文本信息：把 prompt 输入到 frozen text encoder 中，得到 text embedding
2）文生图（64 x 64）: 把 text embedding 输入到生成模型中，其实就是给模型信息，让他基于这个信息去生成图像。第一步先成低分辨率的图像
3）图像上采样（256 x 256）：利用扩散模型上采样图片
4）图像上采样（1024 x 1024）：利用扩散模型上采样图片

在文生图模型上，论文使用的是 classifier-free guidance 的 DDPM，这时候会随机将这一引导信息置空，使得文生图模型具备有条件和无条件生成的能

\tilde{\boldsymbol{\epsilon}}_\theta\left(\mathbf{z}_t,\mathbf{c}\right)=w\boldsymbol{\epsilon}_\theta\left(\mathbf{z}_t,\mathbf{c}\right)+\left(1-w\right)\boldsymbol{\epsilon}_\theta\left(\mathbf{z}_t\right)

在文生图模型中，通过 w 控制 Conditional（文本）参与训练的概率，提升 w 虽然有助于更好的图 - 文对齐，但是会导致生成图像的质量下降，而这一现象是由 w 的变化导致训练数据和测试数据失衡造成的
理想情况下，对于归一化到 [-1,1] 之间的训练数据 x ，我们希望在每个采样时间步 t，模型的预测输出 $x_0$ 同样满足 [-1,1] 这样的数据分布，然而伴随着 w 的增大，预测的 $x_0$ 可能会超出这一范围。为此，作者提出了静态阈值和动态阈值的概念，并发现动态阈值的效果会更好
静态阈值（static thresholding）：表示将预测的 $x_0$ 强制约束到 [-1,1] 中，类似 torch. clip 的操作
动态阈值（dynamic thresholding）：令阈值系数 s 为百分比的绝对像素值（[0, 255]/100=[0, 2.55]），如果 s>1 ，则将预测值归一化到 [-s, s]，并除以 s，从而将输出自适应地归一化到 [-1,1] 之间

上面分别是 Efficient U-Net 的下采样、上采样模块
标准 U-Net 做法中，下采样块的下采样操作是在卷积之后，上采样块的上采样操作是在卷积之前。作者颠倒了顺序，即下采样块的下采样操作是在卷积之前，上采样块的上采样操作是在卷积之后。这种做法能提升前向传播的速度，且不影响性能

在两个超分模块中，除了 text embeddings 作为条件外，作者还将低分辨率的输出图像作为控制生成过程的条件之一。而对于文本编码的使用，则是先 **concat 到图像后面，然后再作 cross attention 处理，** 有点儿类似于 Stable-Diffusion

DALL-E-2：使用 CLIP 在 image-text pair 训练的 text encoder（用一个 prior 网络把 text encoder 输出的 embedding 转为 image encoder 的输出，多了一个模型来做图文 embedding 的转换）。直觉上，语言模型训练的数据量远远大于 image-text pair ，并且其模型大小也远远大于当前的 image-text 模型，显然语言模型对于文本的理解能力更强，理解了文本才能生成高质量的图像
Imagen：直接使用大语言模型编码文本信息
大语言模型（large language models-T5-XXL）的训练往往有着更多的数据，因为 text-only 的数据要远远多于成对匹配的 text-image 数据。所以说，大语言模型在理解文本方面往往有着更强大的能力

参考：