PSANet:Point-wise Spatial Attention Network for Scene Parsing

PSA设计出一个双向的空间注意力网络,使得网络比单向空间注意力网络更加有效

什么是 PSANet?

  • PSANet-20230408143425
  • PSANet 认为由于卷积核的物理结构设计,导致 CNN 中的信息流被约束在局部区域中,从而限制了复杂场景的理解
  • PSANet 设计了双向的信息流传播路径,也就是每个位置都与其他位置相关,同时两个位置能够互相通信,互相影响。其实就是双向空间注意力,相比较单向的空间注意力,其特征更加鲁棒

PSANet 的网络结构?

  • PSANet-20230408143426
  • 网络由 collect 和 distribute 两个平行分支构成。在每个分支中,首先应用1×1的卷积来减少输入特征图 X 的通道数 (C1、C2),以减少计算开销

PSANet 的 collect 分支的数据流?

  • PSANet-20230408143427
  • collect 分支:用于收集其他位置对当前点的注意力,但不是为每个位置直接预测一个 HxW 的权重矩阵,而是预测一个 (2H1)×(2W1)(2H-1)\times(2W-1) 的矩阵 HcH^c,然后从该矩阵收集其他点对某个点的注意力 (1 x 1xHW),收集所有点的的注意力构成 collect 分支的注意力矩阵 AcA^c (H×W×HWH\times W\times HW),使用该注意力矩阵加权原始特征即可
  • distribute 分支:同 collect 分支构建矩阵 HdH^d ,然后从该矩阵某个点到其他点的注意力为 (1 x 1xHW),收集所有点的的注意力构成 distribute 分支的注意力矩阵 AcA^c (H×W×HWH\times W\times HW),使用该注意力矩阵加权原始特征即可
  • 为什么完整映射是 (2H1)×(2W1)(2H-1)\times(2W-1) 因为一个矩阵,任意一个点和其他点有双向连接时,那么就有共计 (2H1)×(2W1)(2H-1)\times(2W-1) 个边,因为要去掉自己指向自己权重