Res2Net：A New Multi-scale Backbone Architecture

发表于 2022-07-06 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，图像分类阅读次数：本文字数： 628 阅读时长 ≈ 1 分钟

基于 ResNeXt，将输入特征进行分组，并在不同分支之间设计不同深度的卷积，以实现不同分支不同感受野的目标，最终可以提升网络对多尺度目标的兼容性

什么是 Res2Net ？

ResNet ResNeXt 的基础上引入多尺度特征的概念，使得模型可以提取多尺度的特征

Res2Net 的网络结构？

输入设计不同的分支，分支之间可以进行沟通，每个分支深度不同，感受野不同，最终模型可以适应不同尺度的目标

Res2Net 的 SE 模块？

对每个 Res2Net 基本块输出进行整合，即主要对下图 U 进行处理，利用系数 scale 来使网络自适应的减弱或增强该通道的特征

Res2Net 与 ResNet 的关系？

上图左边 ResNet 的基础结构，Res2Net 将其中 3x3 卷积替换为右边分组卷积 (Group Convolution) ，即将 1x1 之后的特征图划分为 s 组，每组 n/s 个特征图，如果 s=1，Res2Net 变为 ResNet
通过 Res2NetSE 模块，使得 Res2Net 比 ResNet 更容易聚焦在目标上

Res2Net 如何添加多尺度特征？

将输入特征分成了几组。一组滤波器首先从一组输入特征图中提取要素。然后将上一组的输出特征图与另一组输入特征图一起发送到下一组滤波器。此过程重复几次，直到处理完所有输入特征图。最后，将所有组的特征图连接 (concat) 并送到另个 1×1 滤波器，以完全融合信息。沿着输入特征图到输出特征图任何可能路径，当通过 3×3 滤波器时，等效感受野都会增加，由于组合效应，得到许多等效特征尺度