YOLOX：Exceeding YOLO Series in 2021

发表于 2022-09-24 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，目标检测阅读次数：本文字数： 1.5k 阅读时长 ≈ 1 分钟

YOLOX 抛 YOLOv 4、YOLOv 5 众多的 tricks，基 YOLOv 3，解耦头 (decoupled head)+Free anchor

什么是 YOLOX?

YOLOX 抛 YOLOv4、YOLOv5 众多的 tricks，基 YOLOv3，解耦头 (decoupled head)+Free anchor 设计目标检测网络
除此之外，通动态样本匹配 (SimOTA) 动态决定预测框的正负，并根据正负样本计算损失

YOLOX 的网络结构？

输入端： Mosaic 数据增强、Mixup 数据增强
BackBone 主干网络： 和 YOLOv3 一样，使用 Darknet53
Neck： 和 YOLOv3 一样，使用特征金字塔网络 (FeaturePyramidNetwork,FPN)
Prediction： Decoupled Head、Anchor-free、Multi positives

YOLOX 的解耦头 (decoupled head)？

YOLOv3 head 的预测将定位任务和分类任务糅合在一起，但是由于两者的偏好不同，强行组合在一起导致学习时相互干扰，因此在 Yolox 中，增加了三个 Decoupled Head，俗称 “解耦头”
1）cls_output（HxWxC）： 主要对目标框的类别，预测分数
2）obj_output（HxWx1）： 主要判断目标框是前景还是背景，因此经 sigmoid 处理
3）reg_output（HxWx4）： 主要对目标框的坐标信息（x，y，w，h）进行预测

YOLOX 的标签分配？

1）确定的正样本的候选区域
2）计算 anchor 与 gt 的 iou
3）在候选区内计算 cost
4）使用 iou 确定每个 gt 的 dynamic_k
5）为每个 gt 取 cost 排名最小的前 dynamic_k 个 anchor 做正样本，其余作负样本
6）使用正负样本计算 loss

YOLOX 的损失函数？

分类损失：使用 focal loss 计算，仅计算正样本的损失
置信度损失：使用二值交叉熵计算损失，计算所有样本的损失
框损失：使用 iou loss 计算损失，并且仅计算正样本的损失

YOLOX 的正样本 "初步筛选"?

初步筛选的方式主要有两种：根据中心点来判断、根据目标框来判断
根据中心点来判断： 即计算锚框中心点（x_center，y_center），和人脸标注框左上角（gt_l，gt_t），右下角（gt_r，gt_b）两个角点的相应距离。通过计算将中心点落在 groundtruth 矩形框内的锚框挑选出来
根据目标框来判断： 除了根据锚框中心点，和 groundtruth 两边距离判断的方式外，作者还设置了根据目标框判断的方法。以 groundtruth 中心点为基准，设置边长为 5 的正方形，挑选在正方形内的所有锚框

YOLOX 的正样本 "精细化筛选"

1）初筛正样本信息提取：初筛出的 1000 个正样本锚框的位置
2）Loss 函数计算：针对筛选出的 1000 个候选检测框，和 3 个 groundtruth 计算 Loss 函数
3）cost 成本计算：有了 reg_loss 和 cls_loss，就可以将两个损失函数加权相加，计算 cost 成本函数了
4）SimOTA：根据 cost 选择正样本

YOLOX 如何应用动态样本匹配 (SimOTA)?

YOLOX 有 8400 个 Anchor 锚框后，这里的每一个锚框都对应 85 特征向量中的预测框信息。不过需要知道，这些预测框只有少部分是正样本，绝大多数是负样本。SimOTA 用于动态将 8400 个锚框，和图片上所有的目标框进行关联，挑选出正样本锚框
第一步：设置候选框数量
第二步：通过 cost 挑选候选框
第三步：过滤共用的候选框