年轻人起来冲

FOTS：Fast Oriented Text Spotting with a Unified Network

发表于 2023-03-13 更新于 2023-10-24 分类于 2-深度学习， G-OCR 本文字数： 1.7k 阅读时长 ≈ 2 分钟

第一个端到端解决文本识别的模型，相比较两阶段的文本定位方法，它的检测速度更快，基本思路是通过文本检测分支实现文本行区域的提取，然后通过 RoIRotate 模块实现文本行的“摆正”，最后使用 CRNN+CTC 的模式实现文本行的字符识别

阅读全文 »

文本检测之DB和DB++

发表于 2023-03-12 更新于 2023-10-24 分类于 2-深度学习， G-OCR 本文字数： 3.4k 阅读时长 ≈ 3 分钟

本文介绍两个文本检测模型： DB 及它的升级版本 DB++，主要的原理就是将“二值化”的过程做成网络可学习、可微分的一个模块，然后向网络中插入这个模块自适应去学习二值化阈值，最终预测文字区域的一个核心部分，然后再通过公式放大这个核心部分，得到目标区域

阅读全文 »

CNN之结构重参数化

发表于 2023-03-06 更新于 2023-10-24 分类于 2-深度学习， A-基础知识本文字数： 1.8k 阅读时长 ≈ 2 分钟

结构重参数化的原理

阅读全文 »

ConvNeXt V2：Co-designing and Scaling ConvNets with Masked Autoencoders

发表于 2023-02-20 更新于 2023-10-24 分类于 2-深度学习， B-图像分类本文字数： 1.6k 阅读时长 ≈ 1 分钟

ConvNeXtv2借鉴掩码自编码器（MAE），在 ConvNeXt 的基础上引入全卷积掩码自编码器 (FCMAE)，但是发现 MLP 层存在潜在的特征崩溃问题，为了解决这个问题，该研究提出添加一个全局响应归一化层（Global Response Normalization layer，GRN）来增强通道间的特征竞争

阅读全文 »

YOLOv6：A Single-Stage Object Detection Framework for Industrial Applications

发表于 2023-02-10 更新于 2023-10-24 分类于 2-深度学习， D-目标检测本文字数： 1.2k 阅读时长 ≈ 1 分钟

YOLOv6基于RepVGG设计了可重参数化、更高效的骨干网络

阅读全文 »

ConvNeXt：A ConvNet for the 2020s

发表于 2023-02-03 更新于 2023-10-24 分类于 2-深度学习， B-图像分类本文字数： 1.5k 阅读时长 ≈ 1 分钟

针对目前火热的 transformer，ConvNeXt 认为不是卷积固有的劣势导致的 CNN 性能比 transformer 差，而是 CNN 的设计不充分导致的

阅读全文 »

PP-LiteSeg：A Superior Real-Time Semantic Segmentation Model

发表于 2023-01-28 更新于 2023-10-24 分类于 2-深度学习， C-语义分割本文字数： 1.1k 阅读时长 ≈ 1 分钟

为搭建一个轻量化的语义分割网络，PP-LiteSeg 设计了灵活轻便的 encoder 模块、统一的注意力模块和高效的金字塔特征融合模块

阅读全文 »

GhostNetV2：Enhance Cheap Operation with Long-Range Attention

发表于 2023-01-13 更新于 2023-10-24 分类于 2-深度学习， B-图像分类本文字数： 663 阅读时长 ≈ 1 分钟

GhostNetV2在GhostNetV1的基础上，提出新的注意力机制，用于捕获长距离的空间信息，在精度和推理速度之间获得更好的平衡

阅读全文 »

人工神经网络ANN

发表于 2023-01-10 更新于 2023-10-24 分类于 2-深度学习， A-基础知识本文字数： 2.3k 阅读时长 ≈ 2 分钟

本文用于解释最基础的神经网络-感知机的原理，它是后续 CNN、RNN 的基础，CNN 只是在感知机的概念加入“局部连接”的思想，每个局部执行的还是加权和；RNN 只是给每个隐藏层加一个隐状态

本文按照：感知机->多层感知机->全连接层->人工神经网络的步骤去理解 Linear 层

阅读全文 »

CILP：Learning Transferable Visual Models From Natural Language Supervision

发表于 2022-12-20 更新于 2023-10-24 分类于 2-深度学习， H-transformer 本文字数： 2k 阅读时长 ≈ 2 分钟

CLIP 通过文本-图像对实现对模型预训练，上图是是 3 个文本-图像对，每个文本-图像对由一段文本+一张图片表示，文本描述了这个图片的内容（对象类别），CLIP 模型收集**4亿（400 million）个文本-图像对

阅读全文 »