ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
通过 ControlNet 可以向训练好的生成模型注入控制条件,这些条件可以是 Seg、Sketch、pose 等
(图片)+ 条件 ->DDPM-> 条件图片,条件图片
Cogview
文本编码 +(图像编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
Cogvideo
首先生成多个关键帧,然后在帧之间采样,生成视频
CogView2:Faster and Better Text-to-Image Generation via Hierarchical Transformers
通过 mask 掉注意力,避免自回归生成速度慢的问题
文本编码 +(图片编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
CFDG:Classifier-Free Diffusion Guidance
随机添加条件训练,最终结果是条件引导图片和无条件引导图片的线性组合。不需要单独训练引导器
(图片)+(条件)-> 噪声 + 条件 -> 条件图片,条件图片
BlendDiffusion:Blended Diffusion for Text-driven Editing of Natural Images
局部图像编辑,是指仅对用户指定的区域进行编辑,同时保留图像的其余部分,生成图像要求全局上看起来一致连贯,使用 Mask 控制文本生效的区域
(图片)+Mask + 文本 ->DDPM-> 条件图片,文生图
BigGAN
通过增大 Batch 训练大规模的 cGAN,并采用 “截断技巧” 控制样本的多样性和保真度
windows10 上搭建 AI 开发部署环境
本文件用于说明如何在 windows 上安装、测试 AI 运行环境