LEDNet:A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation
LEDNet使用非对称的编码器-解码器结构,编码器在残差层采用信道分割和混洗操作,以特征重用的方式增强了信息通信。另一方面,解码器采用APN模块,其中空间金字塔结构有利于扩大感受野,而无需引入大量的计算
什么是 LEDNet?
- 为增加语义分割模型推理速度,LEDNet 提出使用非对称的编码器-解码器结构,编码器在残差层采用通道分割和混洗操作,以特征重用的方式增强了信息通信。另一方面,解码器采用 APN 模块,其中的空间金字塔结构有利于扩大感受野,而无需引入大量的计算
LEDNet 的网络结构?
- 编码器:核心单元是残差模块,该模块利用跳接、通道拆分和混洗来实现。尽管跳接允许卷积学习有助于训练的残差函数,但与一维分解卷积相比,拆分和混洗操作增强了特征通道内的信息交换,同时保持了相似的计算成本
- 解码器:设计了一个注意力金字塔网络(APN)来提取密集的特征,而不是进行复杂的卷积,其中注意力机制用于估计每个像素的语义标签
LEDNet 编码器上的通道拆解、混洗模块 (split-shuffle-non-bottleneck, SS-nbt)?
- 为提升网络中残差块的效率,设计了 SS-nbt,它采用了拆分转换合并策略,该方法接近大型和密集层的表示能力,但计算复杂度却低得多
- 每个 SS-nbt 的开头,输入被分为两个较低维的分支,每个分支都有输入的一半通道。为了避免逐点卷积,使用一组专用的1D 滤波器(例如1×3、3×1)执行转换,并使用级联合并两个分支的卷积输出,以使通道数保持不变。为了便于训练,通过恒等映射的分支将堆叠的输出与输入相加。最后,使用相同的信道混洗操作来实现两个拆分分支之间的信息通信
- 每个SS-nbt的高效率允许我们使用更多的功能通道。其次,在每个SS-nbt单元中,将合并的特征通道随机混洗,然后加入下一个单元。这可以看作是一种功能重用,在某种程度上扩大了网络容量,而又没有显着增加复杂性
LEDNet 的注意力金字塔网络(APN)?
- 金字塔模块(空间注意力):上图红色框部分,输入是 128x 64x 128,然后串行使用3×3、5×5和7×7卷积来形成多尺度特征金字塔,并且小尺度的特征会 concate 到大尺度特征,最终输出 128x 64 xC 的特征
- 通道注意力模块:上图蓝色框部分,输入128x 64x 128直接通过 GAP 生成 1 x 1 x 128 特征,使用 1 x 1 卷积压缩通道后,直接上采样得到 128 x 64 xC
- 特征融合:原始 DCNN 输出(128x 64x C)+金字塔模块(空间注意力)输出(128x 64x C)+通道注意力模块输出(128x 64x C)融合,然后通过上采样 8x生成输出