第一个端到端解决文本识别的模型,相比较两阶段的文本定位方法,它的检测速度更快,基本思路是通过文本检测分支实现文本行区域的提取,然后通过 RoIRotate 模块实现文本行的“摆正”,最后使用 CRNN+CTC 的模式实现文本行的字符识别

阅读全文 »

本文介绍两个文本检测模型: DB 及它的升级版本 DB++,主要的原理就是将“二值化”的过程做成网络可学习、可微分的一个模块,然后向网络中插入这个模块自适应去学习二值化阈值,最终预测文字区域的一个核心部分,然后再通过公式放大这个核心部分,得到目标区域

阅读全文 »

ConvNeXtv2借鉴掩码自编码器(MAE),在 ConvNeXt 的基础上引入全卷积掩码自编码器 (FCMAE),但是发现 MLP 层存在潜在的特征崩溃问题,为了解决这个问题,该研究提出添加一个全局响应归一化层(Global Response Normalization layer,GRN)来增强通道间的特征竞争

阅读全文 »

本文用于解释最基础的神经网络-感知机的原理,它是后续 CNN、RNN 的基础,CNN 只是在感知机的概念加入“局部连接”的思想,每个局部执行的还是加权和;RNN 只是给每个隐藏层加一个隐状态

本文按照:感知机->多层感知机->全连接层->人工神经网络的步骤去理解 Linear 层

阅读全文 »