年轻人起来冲

Res2Net：A New Multi-scale Backbone Architecture

发表于 2022-12-11 更新于 2023-10-24 分类于 2-深度学习， B-图像分类本文字数： 628 阅读时长 ≈ 1 分钟

基于ResNeXt，将输入特征进行分组，并在不同分支之间设计不同深度的卷积，以实现不同分支不同感受野的目标，最终可以提升网络对多尺度目标的兼容性

阅读全文 »

YOLOF：You Only Look One-level Feature

发表于 2022-11-15 更新于 2023-10-24 分类于 2-深度学习， D-目标检测本文字数： 1.3k 阅读时长 ≈ 1 分钟

YOLOv3-YOLOv5均是采用FPN的多尺度特征(C3-C7)做目标预测，YOLOF则反其道而一种仅用一个尺度(C5)就能达到多级检测的方法

阅读全文 »

MAE：Masked Autoencoders Are Scalable Vision Learners

发表于 2022-11-13 更新于 2023-10-24 分类于 2-深度学习， H-transformer 本文字数： 1.6k 阅读时长 ≈ 1 分钟

在深度学习模型中，通常会通过 BackBone 提取特征，这些 BackBone 通常使用大量的人工标注数据训练得到，但是人工标注成本很高，能不能在没有标注数据的情况下，训练得到一个预训练模型呢？MAE 通过自监督方法训练得到 BackBone 模型，MAE 开发了一种非对称编码器-解码器结构，其中的编码器仅对可见的 patch 子集进行操作，而轻量级解码器则从潜在表示和 mask token 重建原始图像。对输入图像的高比例（例如 75%）进行 mask 会产生一项困难且有意义的自监督任务

阅读全文 »

SVTR：Scene Text Recognition with a Single Visual Model

发表于 2022-10-25 更新于 2023-10-24 分类于 2-深度学习， G-OCR 本文字数： 1.5k 阅读时长 ≈ 1 分钟

传统的文本识别算法是CNN+RNN，但是由于LSTM的效率较低，很多移动设备对LSTM的加速效果并不好，所以在实际的应用场景中也存在诸多限制，SVTR利用swin transformer替代构建局部和全局混合块，提取多尺度的特征，使得不需要RNN去构建序列依赖也能实现更好的效果

阅读全文 »

YOLOv5-nopaper

发表于 2022-10-21 更新于 2023-10-24 分类于 2-深度学习， D-目标检测本文字数： 3.8k 阅读时长 ≈ 3 分钟

在YOLOv4的基础上添加了一些新的改进思路，网络做成了可选择配置的方式

阅读全文 »

Swin Transformer：Hierarchical Vision Transformer using Shifted Windows

发表于 2022-10-11 更新于 2023-10-24 分类于 2-深度学习， H-transformer 本文字数： 3.4k 阅读时长 ≈ 3 分钟

为解决原始transformer在全局上构建注意力的成本巨大问题，Swin Transformer引入WIndows的概念，在每个Windows内构建全局注意力，使得成本由平方变为线性。同时借鉴CNN的层次特征，设计多层次的transformer block，提取图像的多尺度特征

阅读全文 »

OAA：Online Attention Accumulation for Weakly Supervised Semantic Segmentation

发表于 2022-10-04 更新于 2023-10-24 分类于 2-深度学习， C-语义分割本文字数： 1.1k 阅读时长 ≈ 1 分钟

OAA是一个弱监督语义分割网络，通过设计OAA模块，在训练过程中不断累积CAM，这比单纯使用最后一次的CAM更能体现物体轮廓

阅读全文 »

YOLOX：Exceeding YOLO Series in 2021

发表于 2022-09-23 更新于 2023-10-24 分类于 2-深度学习， D-目标检测本文字数： 1.5k 阅读时长 ≈ 1 分钟

YOLOX 抛YOLOv4、YOLOv5众多的 tricks，基 YOLOv3，解耦头 (decoupled head)+Free anchor 设计目标检测网络

阅读全文 »

RepVGG：Making VGG-style ConvNets Great Again

发表于 2022-09-10 更新于 2023-10-24 分类于 2-深度学习， B-图像分类本文字数： 1.1k 阅读时长 ≈ 1 分钟

RepVGG为了解决原始VGGNet网络模型较大、不便于部署以及性能比较差问题，训练时在VGG网络的 Block 块中加入了 Identity 和残差分支，解决性能差的问题。推理时通过“结构重参数化”将所有的网络层都转换为 Conv3x3，便于网络的部署和加速

阅读全文 »

PRTR：Pose Recognition with Cascade Transformers

发表于 2022-09-08 更新于 2023-10-24 分类于 2-深度学习， H-transformer 本文字数： 1.1k 阅读时长 ≈ 1 分钟

PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络，该网络首先使用 CNN 提取特征，然后使用 transformer 学习注意力，并最终使用类似 transformer-decoder 的方式逐个输出特征点位置

阅读全文 »