EfficientDet:Scalable and Efficient Object Detection

提出了一个带权重的双向特征金字塔网络(BiFPN),它可以支持简单快速的多尺度特征融合

什么是 EfficientDet?

  • EfficientDet-20230408141402
  • 提出了一个带权重的双向特征金字塔网络(BiFPN),它可以支持简单快速的多尺度特征融合
  • 提出了一个复合缩放方法以便可以同时一致地缩放所有backbone、特征网络和bbox/class 预测网络的分辨率、深度、宽度

EfficientDet 的模型结构?

  • EfficientDet-20230408141403
  • backbone:EfficientNetv1
  • 特征融合网络:带权重双向特征金字塔(BiFPN),它从 backbone 的 level3-7 获取特征 (P3, P4, P5, P6, P7) 并且重复使用自上而下和自下而上的双向特征融合
  • Head:这些融合后的特征被送入了分类和 box 回归网络来生成目标类别和预测的 bondingbox,分类和box回归网络权重在所有level的特征之间共享

EfficientDet 提出的带权重双向特征金字塔 (BiFPN)?

  • BiFPN 采用多输入加权残差连接进行尺度层次重新加权,再添加不同尺度的特征地图

EfficientDet 的复合缩放方法?

  • EfficientDet-20230408141403-2
  • 只是用一个复合系数 φ来同时扩大 backbone,BiFPN,class/box 网络和 resolution (分辨率) 的所有维度
  • backbone:重用了EfficientNet-B0到B6相同的宽度/深度缩放系数,因此我们可以轻松地重用其ImageNet预训练的检查点
  • BiFPN:BiFPN 的宽度和深度由以下方程式缩放

    Wbifpn =64(1.35ϕ),Dbifpn =3+ϕW_{\text {bifpn }}=64 \cdot\left(1.35^{\phi}\right), \quad D_{\text {bifpn }}=3+\phi

  • class/box:将其宽度固定为与 BiFPN 相同,使用如下公式线性增加其深度

    Dbox=Dclass =3+ϕ/3D_{b o x}=D_{\text {class }}=3+\lfloor\phi / 3\rfloor

  • resolution:特征 level3-7 都在 BiFPN 中被使用,输入的分辨率必须能被 2^7=128 整除,所以我们使用如下公式线性增加分辨率

    Rinput =512+ϕ128R_{\text {input }}=512+\phi \cdot 128