APCNet：Adaptive Pyramid Context Network for Semantic Segmentation

发表于 2022-07-26 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，语义分割阅读次数：本文字数： 1k 阅读时长 ≈ 1 分钟

APCNet 提出 ACM 模块，满足语义分割的分辨率自适应、多尺度、自注意力 3 个条件，使得模型效果更好

什么是 APCNet？

本文设计了一种自适应金字塔上下文模型，与其他现有的语义分割模型相比，它包含了多尺度 (Multi-scale)、自适应区域 (Adaptive)、全局和局部的信息融合权重 (Global-guidedLocalAffinity,GLA) 三大特性
已经有相关工作证明，多尺度、自适应以及全局指导局部亲和力三大特性都可以提升语义分割模型的性能，但是当前现有的的一些模型都忽略了其中一个或一些特性，因此作者提出了一种包含了这三个特性的模型，得到了很好的效果

APCNet 的网络结构？

多尺度特性：体现在使用多个 ACM 模块对经 CNN 生成的 feature map 进行处理，每个 ACM 模块将 feature map 变成了不同尺度的局部信息；
自适应性：体现在 s 的取值可变，即可以通过 ACM 模块中的 Adaptive Pooling 调整生成的 feature map 尺寸为 sxsx512；
GLA 特性：体现在 ACM 模块中有两条支路，上面的支路包含的是全局信息，它产生的亲和力系数（类似权重，越大说明越重要）用来指导下面支路中的局部信息。最终将各个 ACM 模块生成的自适应上下文向量进行级联来预测语义标

APCNet 的 ACM 模块？

每个 ACM 模块包括 2 个分支，其中上分支是全局信息，通过对每个 featrue map 进行全局池化然后对通道进行加权，得到权重 $hw\times s^2$ 全局权重；下分支是局部信息，通过自适应池化 (size=s)+1 x 1 卷积，得到 $s^2\times 512$ 局部权重；将局部权重和全局权重相乘，得到最终权重，然后和输入相乘，得到加权后的 featrue map

语义分割模型的多尺度问题 (Multi-scale) 问题？

对于语义分割任务而言，物体往往存在尺寸不同、位置不同的特点，对于一些没有聚合上下文信息的模型来说，检测这种尺寸相差较大的物体比较困难，同时会丢失一些细节信息

语义分割模型如何解决自适应区域 (Adaptive) 问题？

在图像中，并不是所有的区域都与被分割物体有关，或者说有些像素点对于物体正确分割的影响大，而有些像素点则没有什么影响。同时，这些像素点或者叫相关区域的位置不一定就在被分割物体的周围，也有可能远离被分割物体。这就要求模型具有自适应选择区域的能力，能够识别这些重要区域帮助物体的正确分割