GAN:Generative Adversarial Networks
非监督的学习过程,由一个生成网络与一个判别网络组成,其中生成网络生成样本,判别网络区分的是生成样本还是真实样本,在训练后期判别器判定概率接近 0.5,然后拿生成器去生成图像
噪声 -> 随机图片,随机图片
非监督的学习过程,由一个生成网络与一个判别网络组成,其中生成网络生成样本,判别网络区分的是生成样本还是真实样本,在训练后期判别器判定概率接近 0.5,然后拿生成器去生成图像
噪声 -> 随机图片,随机图片
通过 mask 掉注意力,在同一个网络内实现文生图、图生文
DragGan 通过在图片定义起始点、目标点,实现起始点所在物体向目标点移动,实现图片的编辑
图 + 交互 -> 条件图片,条件图片
通过交互点控制图片生成
图 + 交互 -> 条件图片,图生图
训练一个 Semantic 高级语义编码器,在训练 DDIM 时作为条件输入,通过控制高级语义信息的不同位置,控制图片生成效果
(图片)+ 高级语义 -> 噪声 + 高级语义 -> 条件图片,条件图片
(图片)+ 类别 ->DDPM-> 条件图片,条件图片
扩散模型包括两个过程,加躁过程通过定义参数计算,不包括学习参数,去躁过程使用 Unet 计算噪声,通过计算加躁前和去躁后的损失,驱动网络训练。无论加躁去躁都是在通过数学证明得到其分布,然后通过 “重参数化” 技术实现采样
(图片)-> 噪声 -> 随机图片,随机图片
去躁步进可以比 1 大,生成图片更快
(图片)-> 噪声 -> 随机图片,随机图片
分别使用 CLIP、VAE 提取文本编码、图像编码,然后使用 transformer 使用自注意力学习。推理时,使用 CLIP 提取文本编码,然后输入
transformert 提取图片编码,最后使用 dVAE decoder 生成图片
本文是一个基于 CLIP 引导的 DDPM 生成模型