SDG

什么是 SDG ?

  • 基于 classifier guidance DM 后,把分类器替换成其它任意的判别器,也即更换引导条件,从而实现利用不同的语义信息来指导扩散模型的去噪过程。比如说可以实现 text-guidance 和 image-guidance 等

SDG 的原理?

  • 实质上就是把 classifier guidance 的条件推广,生成图像过程表达如下,其中 FϕF_\phi 表示新的引导条件,其实也可以换成相似度之类的分数指标,比如图像引导、文本引导、图像 + 文本引

xt1 sample from N(μ+sΣg,Σ),where g=xtFϕ(xt,y,t)Fϕ(xt,y,t)=log(pϕ(yxt))\begin{aligned}&x_{t-1}\leftarrow\text{ sample from }\mathcal{N}(\mu+s\Sigma g,\Sigma)\text{,where }g=\triangledown_{x_t}F_\phi(x_t,y,t)\\\\&F_\phi(x_t,y,t)=log(p_\phi(y|x_t))\end{aligned}

  • 引导器的 pϕ(yxt)p_\phi(y|x_t) 要求使用加躁过程中的图片重新训练引导器,所以本文使用重新训练了 CLIP

SDG 的引导器如何训练?

  • 借助 CLIP 模型里文本和图像之间对齐的表征来做一些损失计算了
  • 文本引导:每一步都计算现在的图像表征和文本表征的距离,使用方程的梯度来计算缩小这个距离的方向,最简单的方式莫过于余弦距离
  • 图像引导:在图像上,如果只使用余弦距离没有考虑到空间信息和风格信息。论文在这里使用了更加具体的损失。一个是考虑空间布局的对应特征图里对应位置的 L2 范式差,和考虑风格信息的对应特征图的量化感知损失

SDG 、 IVLR 的区别?

  • 同样是图片引导,IVLR 的引导只能固定整体的图片布局。而 SDG 既可以生成更加多样的姿态,也可以保留相应的姿态,对于文本引导的生成其生成的图像也更为多样
  • 但是随着 GLIDE 提出的隐式分类器引导的图像生成,SDG 不再是主流

参考:

  1. 扩散模型与受控图像生成 - 脉络梳理 - 知乎
  2. 关于扩散模型 (DDPM) 的条件生成 - 知乎
  3. 基于扩散模型的文本引导图像生成算法 - 知乎
  4. 扩散模型与受控图像生成 - 脉络梳理 - 知乎