SPM:Rethinking Spatial Pooling for Scene Parsing

SPM提出条形池化模块,考虑的是较长但较窄的范围,而不是整个特征图,避免了在相距较远的位置之间建立不必要的连接

什么是 SPM ?

  • SPM-20230408143646
  • SPM 认为空间池化 (NxN)虽然在捕获上下文依赖上有效,但是引入很多不必要的依赖,据此提出条形池化 (strip Pooling),如上图 abcd 分别是 4 个场景的条形池化、空间池化、gt mask,空间池化结果、条形池化结果,比较第 1/2 行可以发现,条形池化建立的上下文依赖更加准确
  • SPM 进一步低,提出多池化模块 (Mixed Pooling module, MPM),该模块融合了空间池化获取短程上下文依赖的能力,也有条形池化的长程依赖的能力

SPM 的网络结构?

  • SPM-20230408143646-1
  • 经过 DCNN 得到的 featrue map,经过水平方向垂直方向的条形池化后得到 H×1H\times 11×W1\times W 的 B/C,使用 1D 卷积整合特征,得到的结果还是 H×1H\times 11×W1\times W,然后分别沿水平方向、垂直方向 expand,得到两个大小为 H×WH\times W 的矩阵 D/E,两个矩阵进行 Element-wise add,得到矩阵 F,然后使用卷积+sigmoid 整理 F 矩阵得到 A 的上下文依赖矩阵,A 与 F 相乘,得到加权后的 featrue map

SPM 的 MPM 模块?

  • SPM-20230408143646-2
  • 该模块致力于通过各种池操作汇总不同类型的上下文信息,以使特征表示更具区分性
  • 提出的 MPM 由两个子模块组成,这些子模块可同时捕获不同位置之间的短距离和长距离依赖关系。对于长期依赖关系,通过水平和垂直条带池化操作来收集此类线索,对于短程依赖关系,通过全局池化来收集

SPM 的 SP 模块比较传统池化?

  • SPM-20230408143647
  • 上图分别是 VSP: 垂直池化、HSP:水平池化、LRD: 条形池化、SRD:普通空间池化、MPM:混合池化
  • 可以看出 LRD 能更加准确定位天空在那里,而 SRD 不能做到,当然合并两者的混合池化性能更好