PSANet:Point-wise Spatial Attention Network for Scene Parsing
PSA设计出一个双向的空间注意力网络,使得网络比单向空间注意力网络更加有效
什么是 PSANet?
- PSANet 认为由于卷积核的物理结构设计,导致 CNN 中的信息流被约束在局部区域中,从而限制了复杂场景的理解
- PSANet 设计了双向的信息流传播路径,也就是每个位置都与其他位置相关,同时两个位置能够互相通信,互相影响。其实就是双向空间注意力,相比较单向的空间注意力,其特征更加鲁棒
PSANet 的网络结构?
- 网络由 collect 和 distribute 两个平行分支构成。在每个分支中,首先应用1×1的卷积来减少输入特征图 X 的通道数 (C1、C2),以减少计算开销
PSANet 的 collect 分支的数据流?
- collect 分支:用于收集其他位置对当前点的注意力,但不是为每个位置直接预测一个 HxW 的权重矩阵,而是预测一个 的矩阵 ,然后从该矩阵收集其他点对某个点的注意力 (1 x 1xHW),收集所有点的的注意力构成 collect 分支的注意力矩阵 (),使用该注意力矩阵加权原始特征即可
- distribute 分支:同 collect 分支构建矩阵 ,然后从该矩阵某个点到其他点的注意力为 (1 x 1xHW),收集所有点的的注意力构成 distribute 分支的注意力矩阵 (),使用该注意力矩阵加权原始特征即可
- 为什么完整映射是 ? 因为一个矩阵,任意一个点和其他点有双向连接时,那么就有共计 个边,因为要去掉自己指向自己权重