ControlNet：Adding Conditional Control to Text-to-Image Diffusion Models

发表于 2023-10-24 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片阅读次数：本文字数： 2.8k 阅读时长 ≈ 3 分钟

通过 ControlNet 可以向训练好的生成模型注入控制条件，这些条件可以是 Seg、Sketch、pose 等
(图片)+ 条件 ->DDPM-> 条件图片，条件图片

一种用于控制已经训练好的扩散大模型的技术，所谓控制，是指向文生图模型指定更多的条件，比如边缘图、分割图、关键点等
ControlNet 以端到端的方式学习特定于任务的条件，即使训练数据集很小（< 50k），学习也是稳健的
训练 ControlNet 与微调扩散模型是一样的快，并且该模型可以在个人设备上进行训练。或者，如果强大的计算群集可用，则模型可以扩展到大规模（数百万到数十亿）数据

1）ControlNet 模块：下图左边是任意神经网络，右边是通过 ControlNet 使用条件控制任意神经网络，ControlNet 输入是条件 c，控制 y 的生成，其中使用了 zero convolution 的概念，该卷积在初始时设置权重和偏置为 0，即不影响左边网络，后续学习时变为非 0 卷积
2）ControlNet 应用到 SD：下图是控制 SD 模型的 ControlNet，可见 ControlNet 其实是 SD 网络的拷贝，然后在各模块内添加零卷积，由此，整个网络权重分为 “锁定副本” 和 “可训练副本”。制作此类副本而不是直接训练原始权重的动机是避免在数据集较小时过拟合，并保持从数十亿张图像中学习的大模型的落地应用质量，由于原始权重是锁定的，不需要在原始编码器上进行梯度计算来进行训练。这可以加快训练速度并节省 GPU 内存，因为可以避免原始模型上一半的梯度计算。用 ControlNet 训练稳定的扩散模型只需要在每次训练迭代中增加约 23% 的 GPU 内存和 34% 的时间

一种称为 “零卷积” 的独特卷积层连接，即 1 × 1 个卷积层，权重和偏差都用零初始化。在第一个训练步骤中，神经网络块的可训练副本和锁定副本的所有输入和输出都一致，就好像 ControlNet 不存在一样
在训练之初新加的 UNet encoder 不会影响到原始 Stable Diffusion 的生成，而随着训练，zero convolution 会逐渐被赋予权重，对冻结的 Stable Diffusion 的控制力逐渐加强

由 ControlNet 模块可知，模型需要 3 个输入，所以需要收集大量的 "图像 - 文本描述 - 条件"3 元组数据，其中条件可以是边缘图、分割图、关键点
类似 DDPM 的训练过程，给定潜在空间特征 $z_0$ ，文本 prompts $c_t$ ，经过 t 次加躁后变为 $z_t$ ，其估计噪声的函数为： $\mathcal{L}=\mathbb{E}_{\boldsymbol{z}_0,\boldsymbol{t},\boldsymbol{c}_t,\epsilon\sim\mathcal{N}(0,1)}\left[\|\epsilon-\epsilon_\theta(\boldsymbol{z}_t,\boldsymbol{t},\boldsymbol{c}_t))\|_2^2\right]$ ，在使用 ControlNet 后，在给定附加条件 $c_f$ 的条件下，其噪声估计过程变为：

\mathcal{L}=\mathbb{E}_{\boldsymbol{z}_0,\boldsymbol{t},\boldsymbol{c}_t,\boldsymbol{c}_f,\epsilon\sim\mathcal{N}(0,1)}\left[\|\epsilon-\epsilon_\theta(\boldsymbol{z}_t,\boldsymbol{t},\boldsymbol{c}_t,\boldsymbol{c}_\mathrm{f}))\|_2^2\right]

Classifier-free guidance resolution weighting：原始的 CFG 技术是无条件预测和条件预测的线性组合，下图 b、c 分布是不使用 CFG 和使用 CFG 的过程，而 d 是使用不同权重加权不同模块的结果，如对于第 i 个模块，权重 $w_i=64/h_i$ ，其中 $h_1=8,h_2=16,...$ ，通过不断降低权重实现更好的分辨率
Composing multiple ControlNets：通过使用多个 ControlNet，并将借个组合在一起，可以实现生成图片的多条件控制

上图是 ControlNet 实验的 3 个 ControlNet 模块，其中 (a) 在复制层前后使用零值初始化的标准卷积，(b) 在复制层前后使用高斯权重初始化的标注卷积层，© 直接使用一个卷积层学习。每一列是使用不同的 prompt 生成的效果
从生成的效果分析，c 生成的图片无法生成符合文本的图片，b 生成的图片效果性能下降，只有 a 生成的图片符合条件控制及文本，所以最终 ControlNet 使用模块 a 构建