LRNNET：A Light-Weighted Network with Efficient Reduced Non-Local Operation for Real-Time Semantic Segmentation

发表于 2021-03-25 更新于 2023-10-24 分类于 2-深度学习， C-语义分割阅读次数：本文字数： 1k 阅读时长 ≈ 1 分钟

基于LEDNet改进, 使用SVD简化non-local网络, 通过分解因子卷积块（FCB）扩大感受野，通过SVN模块构建稀疏的空间注意力

什么是 LRNNet？

编码器：三个阶段的 ResNet 形式组成。编码器环节的核心组件是分解因子卷积 FCB 单元，同时在最后一个下采样单元之后，采用了空洞卷积上输出特征图的分辨率保持在1/8
解码器：包含 2 层分支，其中下层分支是输入的残差，上层分支是非局部模块（SVN），它利用区域奇异向量产生更有代表性的特征来建模远程依赖和全局特征选择

底层分支：来自输入的残余连接
上层分支：是简化非局部操作的瓶颈，将特征图划分为空间子区域。利用区域奇异向量产生更有代表性的特征来建模远程依赖和全局特征选择，区域优势奇异向量是特征图区域最具代表性的特征向量
上分支构建稀疏注意力的过程(1)计算得到 K、V：特征 $CHW$ 通过 1 x 1 卷积将通道调整 C->C’，然后对 HW 的区域分 S 个子区域，对每个子区域大小为 (C‘, H/S, W/S)，通过迭代算法将所有子区域简化到 (C’, 1)，所有子区域则有 $C'\times S$ ，即是 K, V；(2)计算注意力：通过 $Q\times K^T$ 得到大小为 $S\times N$ 注意力矩阵，相比较构建 $N\times N$ 注意力矩阵，这个举证更小，所以其注意力更加稀疏；(3)加权特征，注意力矩阵 $S\times N$ 与 V 点成，得到大小为 $C'\times N$ 的输出，然后通过 1 x 1 卷积得到 $C\times N$ 的输出，然后和原始特征 $CHW$ 相加
不考虑 1 x 1 卷积调整通道数，其实就是对空间进行分区域，然后求区域与每个像素的注意力矩阵 $S\times N$