GLIDE:Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

(图片)+ 文本 ->DDPM-> 条件图片,文生图

什么是 GLIDE ?

  • 基于文本生成图像的模型,不同于 classifier-guidance 的引导方式,本文将文本引导信息和噪声图片共同训练,相当于构建了一个隐式的分类器,也就是 free-guidance 的文生图模型

GLIDE 的原理?

  • 文本 - 图像交叉注意力:在 ADM 模型的基础上新增文本引导信息,该信息使用 12 亿参数的 transformer 学习,图像部分使用 23 亿参数的 transformer 学习
  • 上采样模块:额外训练一个 15 亿参数的上采样模型,用以将分辨率变从 64 × 64 提升为 256 × 256
  • free-guidance:训练时,将部分文本序列置为空,模型既保留了生成文本条件输出的能力,但也可以无条件地生成图像

GLIDE 如何进行 Image InPainting?

  • 直接遮挡:如果原始扩散过程不变,只是取出生成图片的涂抹区域进行扩散,这样模型无法在采样过程中无法看到整个上下文,导致边缘不清晰
  • 原图 + Mask:对训练样本进行随机区域擦除,并将擦除后的图片和 Mask 一起输入模型

参考:

  1. 如何评价 OpenAI 的工作 GLIDE? - 知乎
  2. Text-to-Image 图像生成系列之 GLIDE - 知乎