EfficientDet：Scalable and Efficient Object Detection

发表于 2022-08-25 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，目标检测阅读次数：本文字数： 1k 阅读时长 ≈ 1 分钟

提出了一个带权重的双向特征金字塔网络（BiFPN），它可以支持简单快速的多尺度特征融合

什么是 EfficientDet？

backbone：EfficientNetv1
特征融合网络：带权重双向特征金字塔 (BiFPN)，它从 backbone 的 level3-7 获取特征 (P3, P4, P5, P6, P7) 并且重复使用自上而下和自下而上的双向特征融合
Head：这些融合后的特征被送入了分类和 box 回归网络来生成目标类别和预测的 bondingbox，分类和 box 回归网络权重在所有 level 的特征之间共享

只是用一个复合系数 φ 来同时扩大 backbone，BiFPN，class/box 网络和 resolution (分辨率) 的所有维度
backbone：重用了 EfficientNet-B0 到 B6 相同的宽度 / 深度缩放系数，因此我们可以轻松地重用其 ImageNet 预训练的检查点
BiFPN：BiFPN 的宽度和深度由以下方程式缩放 $W_{\text {bifpn }}=64 \cdot\left(1.35^{\phi}\right), \quad D_{\text {bifpn }}=3+\phi$
class/box：将其宽度固定为与 BiFPN 相同，使用如下公式线性增加其深度 $D_{b o x}=D_{\text {class }}=3+\lfloor\phi / 3\rfloor$
resolution：特征 level3-7 都在 BiFPN 中被使用，输入的分辨率必须能被 2^7=128 整除，所以我们使用如下公式线性增加分辨率 $R_{\text {input }}=512+\phi \cdot 128$