Gated-SCNN:Gated Shape CNNs for Semantic Segmentation

目前的语义分割还是通过逐像素点的密集分类框架完成,但有时不太理想。本文设计了一种双流模型,在常规流之外引入形状流分支额外处理形状信息,而且负责处理形状信息的网络结构不用太深就可以提升细小结构的边缘分割效果

什么是 GSCNN?

  • GSCNN-20230408143005
  • 提出了双流CNN(two-stream CNN)结构,也就是将shape stream单独分离出来,与常规的CNN进行并行操作,最后将两者学习到的特征通过ASPP进行融合处理,从而提高了语义分割的性能

GSCNN 的网络结构?

  • GSCNN-20230408143005-1
  • Regular Stream:Resnet101 & WideResnet, 也可以用 VGG 或者其他的 Resnet 来代替, 输入是 Nx3xHxW, 输出 Nx3 xH/mxW/m, 其中 m 表示步长
  • Shape Stream:接收Regular Stream的输入,并用于学习 GCL 参数,多次叠加 GCL 层,学习不同尺度下的目标的 Shape,这个分支使用图像梯度作为标签,使用 BCE loss 监督

GSCNN 的双流融合的思路?

  • GSCNN-20230408143005-1
  • 将 ShapeStream 的输出 S (Nx1xHxW)(可视为 boundary feature)和 RegularStream 的输出 R (NxCxHxW)(可视为 region feature)通过 ASPP 融合 (ASPP 通过不同 rate 的 dilation 卷积获得 multi-scale 的多尺度特征。用空洞卷积替换 pooling 可以减少信息损失)

GSCNN 的 GCL 是什么?

  • DMNet-20230408143032
  • 它帮助 ShapeStream 只处理相关信息 (比如形状、纹理)而过滤掉其他无关的特征信息
  • 部分卷积(Partial Convolutions) 中 Mask 更新的不合理;提出新卷积层(Gated Convolution layer ),通过在所有层的每个空间位置为每个通道提供可学习的动态特征选择机制来解决传统卷积(vanilla convolutions)将所有输入像素视为有效像素的问题的不合理性