GLIDE：Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

发表于 2023-11-10 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片阅读次数：本文字数： 511 阅读时长 ≈ 1 分钟

(图片)+ 文本 ->DDPM-> 条件图片，文生图

什么是 GLIDE ？

基于文本生成图像的模型，不同于 classifier-guidance 的引导方式，本文将文本引导信息和噪声图片共同训练，相当于构建了一个隐式的分类器，也就是 free-guidance 的文生图模型

GLIDE 的原理？

文本 - 图像交叉注意力：在 ADM 模型的基础上新增文本引导信息，该信息使用 12 亿参数的 transformer 学习，图像部分使用 23 亿参数的 transformer 学习
上采样模块：额外训练一个 15 亿参数的上采样模型，用以将分辨率变从 64 × 64 提升为 256 × 256
free-guidance：训练时，将部分文本序列置为空，模型既保留了生成文本条件输出的能力，但也可以无条件地生成图像

GLIDE 如何进行 Image InPainting?

直接遮挡：如果原始扩散过程不变，只是取出生成图片的涂抹区域进行扩散，这样模型无法在采样过程中无法看到整个上下文，导致边缘不清晰
原图 + Mask：对训练样本进行随机区域擦除，并将擦除后的图片和 Mask 一起输入模型

参考：