GLIDE:Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
(图片)+ 文本 ->DDPM-> 条件图片,文生图
什么是 GLIDE ?
- 基于文本生成图像的模型,不同于 classifier-guidance 的引导方式,本文将文本引导信息和噪声图片共同训练,相当于构建了一个隐式的分类器,也就是 free-guidance 的文生图模型
GLIDE 的原理?
- 文本 - 图像交叉注意力:在 ADM 模型的基础上新增文本引导信息,该信息使用 12 亿参数的 transformer 学习,图像部分使用 23 亿参数的 transformer 学习
- 上采样模块:额外训练一个 15 亿参数的上采样模型,用以将分辨率变从 64 × 64 提升为 256 × 256
- free-guidance:训练时,将部分文本序列置为空,模型既保留了生成文本条件输出的能力,但也可以无条件地生成图像
GLIDE 如何进行 Image InPainting?
- 直接遮挡:如果原始扩散过程不变,只是取出生成图片的涂抹区域进行扩散,这样模型无法在采样过程中无法看到整个上下文,导致边缘不清晰
- 原图 + Mask:对训练样本进行随机区域擦除,并将擦除后的图片和 Mask 一起输入模型
参考: