ICNet for Real-Time Semantic Segmentation on High-Resolution Images

ICNet通过设计3个输入尺度的网络,学习不同尺度的特征,然后通过特征融合模块,输出图片的分割结果

什么是 ICNet?

  • ICNet-20230408143150
  • ICNet 通过分别处理低、中、高三种分辨率,结合低分辨率的速度和高分辨率的质量,实现速度和质量的提升
  • 上图语义分割的预测结构,其中 a 是 FCN 系列,b 是编码器-解码器结构的,包括 SegNet、DeconvNet、UNet 、ENet ,c 是多尺度预测组合结构,如 DeepLab-MSC,d 是 ICNet 结构

ICNet 的网络结构?

  • ICNet-20230408143151
  • ICNet 接受 3 个分辨率输入,分别是低、中、高三个分辨率,分辨率之间通过 [[ICNet#^sbyria|CFF]] 连接
  • 低、中分辨率分支的卷积参数是共享的

ICNet 的 CFF (cascade feature fusion unit)模块?

  • ICNet-20230408143152
  • 这是一个组合特征融合模块,该模块的输入有 2 个,一个是低分辨率的输入 F1,另一个是高分辨率输入 F2,F1 上采样 2 倍后与 F2 融合

ICNet 的损失函数?

  • ICNet 输入 3 个分辨率的图片,计算了 3 次 loss, 分别是
  • (1) 低分辨率的 1/32 输出,在上采样 2 倍后,和 1/16 的 gt 计算一次损失
  • (1) 中分辨率的 1/16 输出,在上采样 2 倍后,和 1/8 的 gt 计算一次损失
  • (1) 低分辨率的 1/8 输出,在上采样 2 倍后,和 1/4 的 gt 计算一次损失