在深度学习模型中,通常会通过 BackBone 提取特征,这些 BackBone 通常使用大量的人工标注数据训练得到,但是人工标注成本很高,能不能在没有标注数据的情况下,训练得到一个预训练模型呢?MAE 通过自监督方法训练得到 BackBone 模型,MAE 开发了一种非对称编码器-解码器结构,其中的编码器仅对可见的 patch 子集进行操作,而轻量级解码器则从潜在表示和 mask token 重建原始图像。对输入图像的高比例(例如 75%)进行 mask 会产生一项困难且有意义的自监督任务

阅读全文 »

传统的文本识别算法是CNN+RNN,但是由于LSTM的效率较低,很多移动设备对LSTM的加速效果并不好,所以在实际的应用场景中也存在诸多限制,SVTR利用swin transformer替代构建局部和全局混合块,提取多尺度的特征,使得不需要RNN去构建序列依赖也能实现更好的效果

阅读全文 »

为解决原始transformer在全局上构建注意力的成本巨大问题,Swin Transformer引入WIndows的概念,在每个Windows内构建全局注意力,使得成本由平方变为线性。同时借鉴CNN的层次特征,设计多层次的transformer block,提取图像的多尺度特征

阅读全文 »

RepVGG为了解决原始VGGNet网络模型较大、不便于部署以及性能比较差问题,训练时在VGG网络的 Block 块中加入了 Identity 和残差分支,解决性能差的问题。推理时通过“结构重参数化”将所有的网络层都转换为 Conv3x3,便于网络的部署和加速

阅读全文 »

PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置

阅读全文 »