PixelCNNPlusPlus
改进 PixelCNN ,将原始 256-way 灰度级 softmax 输出改为连续分布输出
改进 PixelCNN ,将原始 256-way 灰度级 softmax 输出改为连续分布输出
借助 NLP 循环输入预测下一字词的特点,通过定义掩码卷积,使用以前的像素预测下一像素
第一个像素 -> 完整图片,随机图片
本文提出了风格迁移中一种重要的损失函数,感知损失,使得模型生成的图片和目标风格更像
图 A + 图 B-> 图 A 参考图 B 风格,图生图
基于 Conditional Diffusion 的图片编辑应用,主要应用:图片上色(Colorization)、图片涂抹(Inpainting)、图片去裁剪(Uncropping)、JPEG 反压缩(JPEG decompression)
图片 A->VAE encoder->z + 噪声 ->z’->VAE decoder-> 图片 A’,条件图片
无需显式训练,只需要在测试时通过分析去躁过程生成图片和条件图片的低级特征,引导生成图片过程
(图片)-> 噪声 + 条件(图片)-> 条件图片,条件图片
在 PixelCNN 的基础上进一步改进掩码卷积,解决 "盲区" 问题
第一个像素 -> 完整图片,随机图片
(图片)+ 文本 ->DDPM-> 条件图片,文生图