ADM:Diffusion Models Beat GANs on Image Synthesis

需要训练不同噪声和条件的对应模型,使用这个模型影响去躁采样的均值
(图片)-> 噪声 + 条件 -> 条件图片,条件图片

什么是 ADM(ablated diffusion model) ?

  • 提出了 Classifier guided,即添加了引导项,论文提出的消融扩散模型(ADM)和带有额外分类器引导的模型(ADM-G)能够比 SOTA 生成模型(例如 BigGAN)获得更好的结果
  • 原理是使用不同时步的图像 xtx_t 训练一个分类器,之后使用分类器对 xtx_t 的梯度信息 xtlogpθ(xt)\nabla_{x_{t}}\log p_{\theta}(x_{t}) 指导扩散模型的生成

ADM 的加躁过程?

  • 加躁过程:和 DDPM 类似

ADM 的去躁过程?

  • 假设 y 是标签,此时噪声图的采样方式为:p(xtxt+1,y)p(x_t|x_{t+1},y),根据联合概率和条件概率关系,得到以下式子

p(xtxt+1,y)=p(xt,xt+1,y)p(xt+1,y)=p(xt,xt+1,y)p(yxt+1)p(xt+1)=p(xtxt+1)p(yxt,xt+1)p(xt+1)p(yxt+1)p(xt+1)=p(xtxt+1)p(yxt,xt+1)p(yxt+1)\begin{aligned} p(x_{t}|x_{t+1},y)& =\frac{p(x_t,x_{t+1},y)}{p(x_{t+1},y)} \\ &=\frac{p(x_t,x_{t+1},y)}{p(y|x_{t+1})p(x_{t+1})} \\ &=\frac{p(x_t|x_{t+1})p(y|x_t,x_{t+1})p(x_{t+1})}{p(y|x_{t+1})p(x_{t+1})} \\ &=\frac{p(x_t|x_{t+1})p(y|x_t,x_{t+1})}{p(y|x_{t+1})} \end{aligned}

  • 因为 y 是 xtx_t 的标签,和 xt+1x_{t+1} ​是独立的,所以有

p(yxt,xt+1)=p(xt+1xt,y)p(yxt)p(xt+1xt)=p(xt+1xt)p(yxt)p(xt+1xt)=p(yxt)\begin{aligned} p(y|x_{t},x_{t+1})& =p(x_{t+1}|x_t,y)\frac{p(y|x_t)}{p(x_{t+1}|x_t)} \\ &=p(x_{t+1}|x_t)\frac{p(y|x_t)}{p(x_{t+1}|x_t)} \\ &=p(y|x_{t}) \end{aligned}

  • 合并以上两式子,得

p(xtxt+1,y)=p(xtxt+1)p(yxt,xt+1)p(yxt+1)=p(xtxt+1)p(yxt)p(yxt+1)\begin{aligned} p(x_{t}|x_{t+1},y)& =\frac{p(x_t|x_{t+1})p(y|x_t,x_{t+1})}{p(y|x_{t+1})} \\ &=\frac{p(x_t|x_{t+1})p(y|x_t)}{p(y|x_{t+1})} \end{aligned}

  • 因为 y,xt+1x_{t+1} 是已知的,所以 p(yxt+1)p(y|x_{t+1}) 可视为常数,因此上式变为如下,其中 ZZ 是分母常数,θ\theta 表示扩散模型参数,ϕ\phi 表示分类器的参数

pθ,ϕ(xtxt+1,y)=Zpθ(xtxt+1)pϕ(yxt)p_{\theta,\phi}(x_t|x_{t+1},y)=Z\cdot p_\theta(x_t|x_{t+1})\cdot p_\phi(y|x_t)

  • 对上式进行泰勒展开,最终得到以下式子

log(pθ(xtxt+1)pϕ(yxt))=logp(z)+C4,zN(μ+g,)\begin{aligned} log(p_{\theta}(x_{t}|x_{t+1})p_{\phi}(y|x_{t})) &=logp(z)+C_{4},z\sim N(\mu+\sum g,\sum) \end{aligned}

  • 从上式可以看出,增加 classifier guidance 后,相当于对高斯分布的均值加了偏移量 g\sum g

ADM 如何使用带条件的 DM (DDIM)?

  • 在使用神经网络估计噪声时,将 classifier guidance 的梯度信息加到噪声估计上

ADM 不同 s 对生成效果的影响?

  • 一般来说当 s=1 时,大约能保证生成的图片 50% 是想要的类别 [5],随着 s 的增大,这个比例也能够增加。如下图,当 s 增加到 10,此时生成的图片都是期望的类别。因此 s 也称之为 guidance scale

DDPM 和 classifier guidance DM 的联系?

  • DDPM:扩散模型前向扩散过程和后向去噪过程都可以用一个随机微分方程来描述,并且其中后向去噪时我们事实上通过一个神经网络来拟合当前输入关于原数据分布的梯度,来将一个先验分布(如高斯噪声)里采样出的点逐渐推进到数据分布里,后向生成可以看成是一个 MCMC 采样过程,而其中实际每一步的转移方程都是沿着往数据分布的梯度方向迈进,且该方向由我们神经网络的输出来拟合
  • Classifier guidance DM:有了这个网络之后,我们想要生成符合原数据分布的点(例如图像或文本)时我们可以通过逐步往该网络的预测梯度方向行走来获得最终数据点。上式里我们很明显看到给定类别或条件生成的梯度可以看作是我们本来就已经在拟合的无条件梯度再加上一个分类器的梯度来得到。换句话说对于一个先验分布,我们想要再次获得数据分布里在条件约束下的数据点时,我们实际只要在原来往数据方向的梯度方向上再额外添加一个分类器的梯度方向即可

logp(xty)=log(p(xt)p(yxt)p(y))=logp(xt)+logp(yxt)logp(y)=logp(xt)unconditional score+logp(yxt)adversarial gradient\begin{aligned}\nabla\log p(\boldsymbol{x}_t|y)& =\nabla\log\left(\frac{p(\boldsymbol{x}_t)p(y|\boldsymbol{x}_t)}{p(y)}\right) \\&=\nabla\log p(\boldsymbol{x}_t)+\nabla\log p(y|\boldsymbol{x}_t)-\nabla\log p(y) \\&=\underbrace{\nabla\log p(\boldsymbol{x}_t)}_{\text{unconditional score}}+\underbrace{\nabla\log p(y|\boldsymbol{x}_t)}_{\text{adversarial gradient}}\end{aligned}

ADM 的应用?

  • 知道 classifier guidance 原理是在去躁时加入引导梯度信息,显然我们可以把分类器替换成其它任意的判别器,也即更换引导条件,从而实现利用不同的语义信息来指导扩散模型的去噪过程。比如说,我们可以实现 text-guidance 和 image-guidance 等

参考:

  1. 扩散模型笔记 4 DM-beat-GANs - 知乎
  2. 《Diffusion Models Beat GANs on Image Synthesis》阅读笔记 - 知乎
  3. 浅谈扩散模型的有分类器引导和无分类器引导 - 知乎
  4. diffusion model(三)—— classifier guided diffusion model - 知乎