FOTS:Fast Oriented Text Spotting with a Unified Network
第一个端到端解决文本识别的模型,相比较两阶段的文本定位方法,它的检测速度更快,基本思路是通过文本检测分支实现文本行区域的提取,然后通过 RoIRotate 模块实现文本行的“摆正”,最后使用 CRNN+CTC 的模式实现文本行的字符识别
第一个端到端解决文本识别的模型,相比较两阶段的文本定位方法,它的检测速度更快,基本思路是通过文本检测分支实现文本行区域的提取,然后通过 RoIRotate 模块实现文本行的“摆正”,最后使用 CRNN+CTC 的模式实现文本行的字符识别
本文介绍两个文本检测模型: DB 及它的升级版本 DB++,主要的原理就是将“二值化”的过程做成网络可学习、可微分的一个模块,然后向网络中插入这个模块自适应去学习二值化阈值,最终预测文字区域的一个核心部分,然后再通过公式放大这个核心部分,得到目标区域
结构重参数化的原理
ConvNeXtv2借鉴掩码自编码器(MAE),在 ConvNeXt 的基础上引入全卷积掩码自编码器 (FCMAE),但是发现 MLP 层存在潜在的特征崩溃问题,为了解决这个问题,该研究提出添加一个全局响应归一化层(Global Response Normalization layer,GRN)来增强通道间的特征竞争
YOLOv6基于RepVGG设计了可重参数化、更高效的骨干网络
针对目前火热的 transformer,ConvNeXt 认为不是卷积固有的劣势导致的 CNN 性能比 transformer 差,而是 CNN 的设计不充分导致的
为搭建一个轻量化的语义分割网络,PP-LiteSeg 设计了灵活轻便的 encoder 模块、统一的注意力模块和高效的金字塔特征融合模块
GhostNetV2在GhostNetV1的基础上,提出新的注意力机制,用于捕获长距离的空间信息,在精度和推理速度之间获得更好的平衡
本文用于解释最基础的神经网络-感知机的原理,它是后续 CNN、RNN 的基础,CNN 只是在感知机的概念加入“局部连接”的思想,每个局部执行的还是加权和;RNN 只是给每个隐藏层加一个隐状态
本文按照:感知机->多层感知机->全连接层->人工神经网络的步骤去理解 Linear 层
CLIP 通过文本-图像对实现对模型预训练,上图是是 3 个文本-图像对,每个文本-图像对由一段文本+一张图片表示,文本描述了这个图片的内容(对象类别),CLIP 模型收集**4亿(400 million)个文本-图像对