PSANet：Point-wise Spatial Attention Network for Scene Parsing

发表于 2019-04-12 更新于 2023-10-24 分类于 2-深度学习， C-语义分割阅读次数：本文字数： 801 阅读时长 ≈ 1 分钟

PSA设计出一个双向的空间注意力网络，使得网络比单向空间注意力网络更加有效

什么是 PSANet？

PSANet 认为由于卷积核的物理结构设计，导致 CNN 中的信息流被约束在局部区域中，从而限制了复杂场景的理解
PSANet 设计了双向的信息流传播路径，也就是每个位置都与其他位置相关，同时两个位置能够互相通信，互相影响。其实就是双向空间注意力，相比较单向的空间注意力，其特征更加鲁棒

网络由 collect 和 distribute 两个平行分支构成。在每个分支中，首先应用1×1的卷积来减少输入特征图 X 的通道数 (C1、C2)，以减少计算开销

collect 分支：用于收集其他位置对当前点的注意力，但不是为每个位置直接预测一个 HxW 的权重矩阵，而是预测一个 $(2H-1)\times(2W-1)$ 的矩阵 $H^c$ ，然后从该矩阵收集其他点对某个点的注意力 (1 x 1xHW)，收集所有点的的注意力构成 collect 分支的注意力矩阵 $A^c$ ( $H\times W\times HW$ )，使用该注意力矩阵加权原始特征即可
distribute 分支：同 collect 分支构建矩阵 $H^d$ ，然后从该矩阵某个点到其他点的注意力为 (1 x 1xHW)，收集所有点的的注意力构成 distribute 分支的注意力矩阵 $A^c$ ( $H\times W\times HW$ )，使用该注意力矩阵加权原始特征即可
为什么完整映射是 $(2H-1)\times(2W-1)$ ？ 因为一个矩阵，任意一个点和其他点有双向连接时，那么就有共计 $(2H-1)\times(2W-1)$ 个边，因为要去掉自己指向自己权重