GSCNN

发表于 2023-03-02 更新于 2025-03-01 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，语义分割阅读次数：本文字数： 636 阅读时长 ≈ 1 分钟

目前的语义分割还是通过逐像素点的密集分类框架完成，但有时不太理想。本文设计了一种双流模型，在常规流之外引入形状流分支额外处理形状信息，而且负责处理形状信息的网络结构不用太深就可以提升细小结构的边缘分割效果

什么是 GSCNN？

提出了双流 CNN (two-stream CNN) 结构，也就是将 shape stream 单独分离出来，与常规的 CNN 进行并行操作，最后将两者学习到的特征通过 ASPP 进行融合处理，从而提高了语义分割的性能

GSCNN 的网络结构？

Regular Stream：Resnet101 & WideResnet, 也可以用 VGG 或者其他的 Resnet 来代替，输入是 N3HW, 输出 N3H/mW/m, 其中 m 表示步长
Shape Stream：接收 Regular Stream 的输入，并用于学习 GCL 参数，多次叠加 GCL 层，学习不同尺度下的目标的 Shape，这个分支使用图像梯度作为标签，使用 BCE loss 监督

GSCNN 的双流融合的思路？

将 ShapeStream 的输出 S (Nx1xHxW)(可视为 boundary feature) 和 RegularStream 的输出 R (NxCxHxW)(可视为 region feature) 通过 ASPP 融合 (ASPP 通过不同 rate 的 dilation 卷积获得 multi-scale 的多尺度特征。用空洞卷积替换 pooling 可以减少信息损失)

GSCNN 的 GCL 是什么？

它帮助 ShapeStream 只处理相关信息 (比如形状、纹理) 而过滤掉其他无关的特征信息