非监督的学习过程,由一个生成网络与一个判别网络组成,其中生成网络生成样本,判别网络区分的是生成样本还是真实样本,在训练后期判别器判定概率接近 0.5,然后拿生成器去生成图像
噪声 -> 随机图片,随机图片

阅读全文 »

通过 mask 掉注意力,在同一个网络内实现文生图、图生文

  1. 文本编码 +(图像编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片
  2. 图像编码 +(文本编码)-> 自回归 -> 文本编码 -> 标题,文生图、图生文
阅读全文 »

扩散模型包括两个过程,加躁过程通过定义参数计算,不包括学习参数,去躁过程使用 Unet 计算噪声,通过计算加躁前和去躁后的损失,驱动网络训练。无论加躁去躁都是在通过数学证明得到其分布,然后通过 “重参数化” 技术实现采样
(图片)-> 噪声 -> 随机图片,随机图片

阅读全文 »

分别使用 CLIP、VAE 提取文本编码、图像编码,然后使用 transformer 使用自注意力学习。推理时,使用 CLIP 提取文本编码,然后输入
transformert 提取图片编码,最后使用 dVAE decoder 生成图片

  1. 文本 ->CLIP-> 文本编码;
  2. 图像 ->dVAE encoder-> 图像编码;
  3. 文本编码 +(图像编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
阅读全文 »