CILP:Learning Transferable Visual Models From Natural Language Supervision
CLIP 通过文本 - 图像对实现对模型预训练,上图是是 3 个文本 - 图像对,每个文本 - 图像对由一段文本 + 一张片表示,文本描述了这个图片的内容(对象类别),CLIP 模型收集 **4 亿(400million)个文本 - 图像对
CLIP 通过文本 - 图像对实现对模型预训练,上图是是 3 个文本 - 图像对,每个文本 - 图像对由一段文本 + 一张片表示,文本描述了这个图片的内容(对象类别),CLIP 模型收集 **4 亿(400million)个文本 - 图像对
和 AE 生成样本的过程类似,但是引入对隐变量的约束,利用高斯混合模型 (GMM) 的概念去逼近真实样本的分布
StyleGAN 通过映射网络解决 “特征纠缠” 问题,通过向不同网络层输入噪声,控制不同层次的特征,比如可以实现单独控制头发的功能
利用 GAN 训练一个 text->image 的网络,图片表达了所给 text 的信息(越来越接近真实)
StableDiffusion 利用 autoencoder 模型将图片编码到潜在空间,然后使用 classfier-free 的 DM 模型在潜在空间进行 diffusion,假设了 DM 模型生成速度慢的问题,为落地提供帮助
两层的神经网络,即输入层和输出层,训练时包括 2 个方向,从输入层到输出层 + 从输出层到输入层