CornerNet：Detecting Objects as Paired Keypoints

发表于 2021-02-21 更新于 2023-10-24 分类于 2-深度学习， D-目标检测阅读次数：本文字数： 2.7k 阅读时长 ≈ 2 分钟

通过预测图片目标的左上角（top-left corner）点、右下角 (bottom-right corner) 点坐标实现对物体的检测

什么是 CornerNet?

通过预测图片目标的左上角（top-left corner）点、右下角 (bottom-right corner) 点坐标实现对物体的检测
为每个预测点分配一个 embedding vector，同一个目标的 vector 的距离较小，不同物体的 vector 的距离较大，以便实现左上角与右下角配对

heatmaps loss： 直接使用 focal loos 计算 heatmap 的损失，所有样本均计算损失 $L_{\text {det }}=\frac{-1}{N} \sum_{c=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left\{\begin{array}{cc}\left(1-p_{c i j}\right)^{\alpha} \log \left(p_{c i j}\right) & \text { if } y_{c i j}=1 \\\left(1-y_{c i j}\right)^{\beta}\left(p_{c i j}\right)^{\alpha} \log \left(1-p_{c i j}\right) \text { otherwise }\end{array}\right.$
offsets loss： 先使用 tag 监督信息拿到当前预测位置的 offset 值，再与监督的 offset 计算损失，仅正样本计算损失 $L_{o f f}=\frac{1}{N} \sum_{k=1}^{N} \operatorname{SmoothL1Loss}\left(\boldsymbol{o}_{k}, \hat{\boldsymbol{o}}_{k}\right)$
embeddings loss： 先使用 tag 监督信息拿到当前预测位置的 embeddings 值，然后按照配对的接近，不配对的远离计算损失，仅正样本计算损失 $\begin{array}{l}L_{p u l l}=\frac{1}{N} \sum_{k=1}^{N}\left[\left(e_{t_{k}}-e_{k}\right)^{2}+\left(e_{b_{k}}-e_{k}\right)^{2}\right], \\L_{p u s h}=\frac{1}{N(N-1)} \sum_{k=1}^{N} \sum_{\substack{j=1 \\j \neq k}}^{N} \max \left(0, \Delta-\left|e_{k}-e_{j}\right|\right),\end{array}$

热图（heatmaps）nms 处理：对 heatmap 进行 3x3 的池化 (pad=1)，输出保持分辨率不变，将池化后的结果与 heatmap 比较，值改变的位置就是非极大位置，将这些位置的置信度置 0，那么后续这些位置不可能作为角点，这起到非极大值抑制的作用
选取候选角点：不分类别，从上面的 heatmp 选择 top100 个左上角和 top100右下角的位置，并根据位置预测的 offsets 调整角点位置
根据嵌入向量 (embeddings) 配对角点：计算左上角和右下角（每个左上角都和其余 99 个右下角）位置对应的 embedings 之间的距离距离大于 0.5 、属于不同类别、座标关系不满足（左上不能大于右下）的角点不能配对
目标检测分数：角点匹配完成后，根据每对角点的平均置信度选出 top100 对，每对平均得分作为各目标的检测分数
目标 nms：分别对各个类别的 bbox 进行 nms 处理