Res2Net:A New Multi-scale Backbone Architecture
基于ResNeXt,将输入特征进行分组,并在不同分支之间设计不同深度的卷积,以实现不同分支不同感受野的目标,最终可以提升网络对多尺度目标的兼容性
基于ResNeXt,将输入特征进行分组,并在不同分支之间设计不同深度的卷积,以实现不同分支不同感受野的目标,最终可以提升网络对多尺度目标的兼容性
YOLOv3-YOLOv5均是采用FPN的多尺度特征(C3-C7)做目标预测,YOLOF则反其道而一种仅用一个尺度(C5)就能达到多级检测的方法
在深度学习模型中,通常会通过 BackBone 提取特征,这些 BackBone 通常使用大量的人工标注数据训练得到,但是人工标注成本很高,能不能在没有标注数据的情况下,训练得到一个预训练模型呢?MAE 通过自监督方法训练得到 BackBone 模型,MAE 开发了一种非对称编码器-解码器结构,其中的编码器仅对可见的 patch 子集进行操作,而轻量级解码器则从潜在表示和 mask token 重建原始图像。对输入图像的高比例(例如 75%)进行 mask 会产生一项困难且有意义的自监督任务
传统的文本识别算法是CNN+RNN,但是由于LSTM的效率较低,很多移动设备对LSTM的加速效果并不好,所以在实际的应用场景中也存在诸多限制,SVTR利用swin transformer替代构建局部和全局混合块,提取多尺度的特征,使得不需要RNN去构建序列依赖也能实现更好的效果
在YOLOv4的基础上添加了一些新的改进思路,网络做成了可选择配置的方式
为解决原始transformer在全局上构建注意力的成本巨大问题,Swin Transformer引入WIndows的概念,在每个Windows内构建全局注意力,使得成本由平方变为线性。同时借鉴CNN的层次特征,设计多层次的transformer block,提取图像的多尺度特征
OAA是一个弱监督语义分割网络,通过设计OAA模块,在训练过程中不断累积CAM,这比单纯使用最后一次的CAM更能体现物体轮廓
YOLOX 抛YOLOv4、YOLOv5众多的 tricks,基 YOLOv3,解耦头 (decoupled head)+Free anchor 设计目标检测网络
RepVGG为了解决原始VGGNet网络模型较大、不便于部署以及性能比较差问题,训练时在VGG网络的 Block 块中加入了 Identity 和残差分支,解决性能差的问题。推理时通过“结构重参数化”将所有的网络层都转换为 Conv3x3,便于网络的部署和加速
PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置