VQ-VAE-2：Generating Diverse High-Fidelity Images with VQ-VAE-2

发表于 2023-12-12 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片阅读次数：本文字数： 891 阅读时长 ≈ 1 分钟

VQ-VAE 因在潜在表示空间使用自回归神经网络，捕捉到了更多的结构化的全局关联信息；VQ-VAE-2
将顶层全局与底层局部信息分离开来，生成全局自洽，局部高清的图像
（图 A->z）->z’ (离散化)-> 图 A’，随机图片

什么是 VQ-VAE-2 ？

使用多层的 VQ-VAE，生成更高清晰度的图片
VQ-VAE 因在潜在表示空间使用自回归神经网络，捕捉到了更多的结构化的全局关联信息；VQ-VAE-2 将顶层全局与底层局部信息分离开来，生成全局自洽，局部高清的图像

VQ-VAE-2 的网络结构？

VQ-VAE-2 是两层的 VQ-VAE，其中上层潜在空间 32 x 32, 下层潜在空间大小 64 x 64。上层首先进行分层量子化，得到量子化后的字典向量

\mathbf{e}_\mathrm{top}\leftarrow\text{Quantize}\left(E_\mathrm{top}(x)\right)

训练时：使用上层量化 $e_{top}$ 作为条件，与输入 x 一起，计算下层潜在空间的量子化形式。最后将上层和下层量子化选中的字典向量 $e_{top}$ 和 $e_{bottom}$ 同时输入解码器，计算之前定义的损失函数，更新编码解码网络，以及字典向量的权重
推理时：自定义输入，依次查询上层 codebook 和下层 codebook，最后使用解码器生成图片

VQ-VAE-2 与 VQ-VAE 的区别？

VQ-VAE 因在潜在表示空间使用自回归神经网络，捕捉到了更多的结构化的全局关联信息
VQ-VAE-2 将顶层全局与底层局部信息分离开来，生成全局自洽，局部高清的图像
两者的目的都是训练 Encoder + VQ + Decoder 其实就是在寻找隐空间，找到隐空间之后，在隐空间上训练 PixelCNN 自回归模型做生成

参考：