DMNet：Dynamic Multi-Scale Filters for Semantic Segmentation

发表于 2020-11-23 更新于 2023-10-24 分类于 2-深度学习， C-语义分割阅读次数：本文字数： 883 阅读时长 ≈ 1 分钟

DMNet和APCNet是同一作者的论文，其基本思想一致，主要改进是每个分支不通过注意力机制学习特征，而是学习卷积核和要被卷积的特征，想法新颖

什么是 DMNet？

本文设计了一种自适应金字塔上下文模型，它和 APCNet几乎是一样的结构，关键变化是将 ACM 改为 DCM，DCM 被定义为上下文感知过滤器，使得这些filters能够适应输入的图像，捕获图像内部的不同尺寸信息

DMNet 的网络结构？

输入图片经过 CNN（backbone 网络）后，得到 Feature Map，接着将 Feature Map 送入 DCM模块，不同的 DCM 模块有着不同大小的卷积核，对应的感受野也不同，将特征图 concat 后送入语义分割 head 进行像素级分割

DMNet 的 DCM 模块？

上分支：输入的特征图 x 经过一个卷积层来减少通道数，得到 $f_k(x)$
下分支：x 经过一个 AdaptiveAvgPooling (k)，k 值是自定义的一个量。经过卷积后生成 k×k×512大小的 $g_k(x)$ ，
特征融合：将 $g_k(x)$ 看作卷积核 ( $1\times k \times k \times 512$ )，与上分支的 $f_k(x)$ 作 Depth-wise conv，得到 $h\times w\times 1$ 的特征，然后使用 1 x 1 卷积调整通道数

DMNet 的多尺度特征感受模块？

Inception：用多个不同大小的卷积核并行，来处理多尺度问题，同样引入了相当一部分的计算量，而且，参数多了就容易导致过拟合
DeepLab 系列：用空洞卷积来扩大感受野以捕获多尺度信息，但是，这种卷积操作引入了大量的计算量，而且容易引起局部邻域的信息丢失。同时，空洞卷积有一个比较致命的问题，就是这个扩张数率的选择，选择过大的速率，小物体就会丢失信息，导致一些网格效应、边界效应
DMNet：和 APCNet一样，借鉴 PSPNet的金字塔池化模块 PPM 进行多尺度提取，同时设计上下午的尺度感知结构，对不同的图使用不同 size 的过滤器 (filter)