LEDNet：A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation

发表于 2020-01-12 更新于 2023-10-24 分类于 2-深度学习， C-语义分割阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

LEDNet使用非对称的编码器-解码器结构，编码器在残差层采用信道分割和混洗操作，以特征重用的方式增强了信息通信。另一方面，解码器采用APN模块，其中空间金字塔结构有利于扩大感受野，而无需引入大量的计算

什么是 LEDNet？

为增加语义分割模型推理速度，LEDNet 提出使用非对称的编码器-解码器结构，编码器在残差层采用通道分割和混洗操作，以特征重用的方式增强了信息通信。另一方面，解码器采用 APN 模块，其中的空间金字塔结构有利于扩大感受野，而无需引入大量的计算

LEDNet 的网络结构？

编码器：核心单元是残差模块，该模块利用跳接、通道拆分和混洗来实现。尽管跳接允许卷积学习有助于训练的残差函数，但与一维分解卷积相比，拆分和混洗操作增强了特征通道内的信息交换，同时保持了相似的计算成本
解码器：设计了一个注意力金字塔网络（APN）来提取密集的特征，而不是进行复杂的卷积，其中注意力机制用于估计每个像素的语义标签

LEDNet 编码器上的通道拆解、混洗模块 (split-shuffle-non-bottleneck, SS-nbt)？

为提升网络中残差块的效率，设计了 SS-nbt，它采用了拆分转换合并策略，该方法接近大型和密集层的表示能力，但计算复杂度却低得多
每个 SS-nbt 的开头，输入被分为两个较低维的分支，每个分支都有输入的一半通道。为了避免逐点卷积，使用一组专用的1D 滤波器（例如1×3、3×1）执行转换，并使用级联合并两个分支的卷积输出，以使通道数保持不变。为了便于训练，通过恒等映射的分支将堆叠的输出与输入相加。最后，使用相同的信道混洗操作来实现两个拆分分支之间的信息通信
每个SS-nbt的高效率允许我们使用更多的功能通道。其次，在每个SS-nbt单元中，将合并的特征通道随机混洗，然后加入下一个单元。这可以看作是一种功能重用，在某种程度上扩大了网络容量，而又没有显着增加复杂性

LEDNet 的注意力金字塔网络（APN）？

金字塔模块（空间注意力）：上图红色框部分，输入是 128x 64x 128，然后串行使用3×3、5×5和7×7卷积来形成多尺度特征金字塔，并且小尺度的特征会 concate 到大尺度特征，最终输出 128x 64 xC 的特征
通道注意力模块：上图蓝色框部分，输入128x 64x 128直接通过 GAP 生成 1 x 1 x 128 特征，使用 1 x 1 卷积压缩通道后，直接上采样得到 128 x 64 xC
特征融合：原始 DCNN 输出（128x 64x C）+金字塔模块（空间注意力）输出（128x 64x C）+通道注意力模块输出（128x 64x C）融合，然后通过上采样 8x生成输出