CascadePSP：Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement

发表于 2022-07-31 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，语义分割阅读次数：本文字数： 2.9k 阅读时长 ≈ 3 分钟

一种通用的级联分割细化模型，它可以细化任何给定的输入分割，在不进行微调的情况下提高现有分割模型的性能

什么是 CascadePSP?

主要思路： 将输入图片缩小及其他网络上的粗略分割结果送 Global Step 全局网络，得到全局的分割结果；然后将输入图片分成多个小块，将每个小块和对应的分割 mask 送入 Local Step 局部网络，输出精细化结果
全局网络、局部网络均 CascadePSP 的细化模块 (RM) 组成，其输入是上一阶段的分割结果（多个尺寸的分割结果），输出是多个尺寸的分割结果（OS8, OS4, OS1）
Global Step 全局网络： 输入是 resize 后的原图和初始的 mask，输出 “全局优化分割结果” $OS4_{(W_G*H_G)}$ ， $OS1_{(W_G*H_G)}$
Local Step 局部网络： 输入是原图的 crop 部分和对应的 mask，输出 “全局优化分割结果” 的所有局部 $OS1_{(L*L)}$ , 为了避免边界伪影，作者将 OS1 的每一侧都切掉 16 个像素（图像边框除外）
合并所有的局部精细化结果 $OS1_{(L*L)}$ ，得到最终的精细化结果 $OS1_{(W*H)}$ ，拼合时，由于图像有重叠，因此重叠部分采取所有像素点平均值；如果缺少某些像素点，那么这些位置使用全局步骤输出的 S11 来替代

细化模块 (RM) 采用一幅图像和多个不同尺度的不完美分割掩模来生成细化的分割，使金字塔池化模块（Pyramid Pooling Module,PPM）捕获多尺度特征
输入：所有低分辨率的输入分段都被双线性向上采样到相同的大小，并与 RGB 图像连接后作为输入
输出：3 种等级的优化分割结果 OS8，OS4，OS1

CascadePSP 的损失只要指的 CascadePSP 的细化模块 (RM) 3 个输出 OS8、OS4、OS1 的损失
对于较粗糙的 OS 8，使交叉熵损失 (CrossEntropyLoss)，对于较精细的 OS 1，使绝对值损失 (L1Loss) 平方损失 (MSELoss/L2Loss)，对于 OS 4，使用交叉熵和 L1 + L2 损失的平均值
为了进行更好的边界细化，在 OS 1 上还采用了分段梯度幅度上的 L1 损失。分割梯度由一个 3×3 均值滤波器和 Sobel 算子组成， fm (.) 表示 3×3 均值滤波器，∇表示由 Sobel 算子近似的梯度算子，由于梯度与像素级损失相比更稀疏，我们用 α 来衡量它，实验中被设置为 5 $\mathcal{L}_{g r a d}=\alpha \cdot \frac{1}{n} \sum_{i}\left\|\nabla\left(f_{m}\left(x_{i}\right)\right)-\nabla\left(f_{m}\left(y_{i}\right)\right)\right\|_{1}$
总损失 $\mathcal{L}=\mathcal{L}_{C E}^{8}+\frac{1}{2}\left(\mathcal{L}_{L 1+L 2}^{4}+\mathcal{L}_{C E}^{4}\right)+\mathcal{L}_{L 1+L 2}^{1}+\mathcal{L}_{g r a d}^{1}$

全局指将原图缩小，这样上下文信息还在，只是损失了细节
输入是缩放的原图 + 缩放的粗分割图，输出是 2 种全局优化分割结果图 OS4，OS1
采用 3 级级联的结构，原图 I 大小为 WxH，将其按下图公式缩放为 $W_G$ $W_{G}$ x $H_G$ $H_{G}$ 大小，粗分割图 S 也做相同处理
- 级联结构 1：将 I 和 S* 3 共 4 张图作为 RM 结构的输入，得到 OS8 的优化结果
- 级联结构 2：将 I 和 S 和 1 中的输出 OS8* 2 作为 RM 的输入，得到新的 OS8 和 OS4 的优化结果
- 级联结构 3：将 I 和 S 和新的 OS8，OS4 作为 RM 的输入，得到新的 OS4 和 OS1 的优化结果

局部指将原图裁剪，这样没有损失细节，但是缺失了上下文信息
输入：原图和全局步骤的 2 个输出 S4、S1，输出是最终的优化结果 OS1
采用 2 级级联的结构，原图 I 大小为 WxH，S4 和 S1 都上采样（双线性插值）到 WxH 的大小，然后将输入的 3 张图都裁剪出 LxL 的图像大小
- 级联结构 1：将 I 和 S1 和 s4* 2 共 4 张图对应裁剪出 LxL 大小，作为 RM 结构的输入，得到 OS8 和 OS4 的优化结果
- 级联结构 2：将裁剪的 I，S11 和 1 中的输出 OS8，OS4 作为 RM 的输入，得到 OS1 的优化结果
裁切规则
- 裁剪的图片大小为 LxL，从原图左上角开始，以 L//2-32 的步幅移动进行裁剪
- 超出图像边界的无效裁剪被移动，以与图像的最后一列（行）对齐
- 保证裁剪后的图像没有重复的，保证裁剪后的图像不会出现大多数像素只有前景或背景