YOLOv10：Real-Time End-to-End Object Detection

发表于 2022-09-26 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，目标检测阅读次数：本文字数： 801 阅读时长 ≈ 1 分钟

通过 one-to-many 和 one-to-one 双头学习，解决模型学习速度和去除 NMS，实现实时的目标检测

什么是 YOLOv10 ？

基于 YOLOv 8 设计的一个全新目标检测模型，主要改进点有：（1）通过 one-to-many 和 one-to-one 双头学习，解决模型学习速度和去除 NMS；（2）通过从性能和效果上两方面提升，使得模型达到 sota

YOLOv10 的网络结构？

在 YOLOv 8 的基础上修改的模型，主干网络使用 CPSDarkNet 53，特征融合使用 PAN，创新在于双预测头设计
训练时使用双头设计，推理时只使用 one-to-one，这就要求训练时的 one-to-one 具有很高准确度，所以需要将 one-to-one 和 one-to-many 进行对齐，这里设计 Consistent Match 对齐方法

YOLOv 10 面向效率设计思路？

（1）使用轻分类头：分类任务相对于回归任务相对简单，使用同样的 head 做预测，浪费模型性能，这里使用更轻量的检测头。实验显示，使用该方法，模型参数量、FLOPs 、推理速度下降，AP 基本不变
（2）使用通道分离的下采样策略：传统的方法是使用 stride=2 的 3 x 3 卷积，这里首先使用点卷积调整通道数，然后使用深度卷积下采样，参数更少，实验证明了该思路
（3）使用秩引导的块设计：

YOLOv 10 面向效果设计思路？

（1）大卷积核：在网络的深层使用大卷积核，配合深度可分离卷积，在计算量提升很少的情况下增大感受野，实验显示在推理稍微增加情况下提升模型效果
（2）部分字注意力：不在所有通道上执行自注意力机制，而是通过 1 x 1 卷积调整通道后，再对部分通道执行自注意力机制，实验显示推理稍微增加情况下提升模型效果

YOLOv 10 如何直线秩引导 Block 设计？

在 S 的集合中挑选秩最小的块，加入网络训练，如果其 AP 值变大，则说明模块有效，从集合中去掉该块，然后循环以上过程，直到无法提升 AP 值或者集合 S 为空