YOLACT++：Better Real-time Instance Segmentation

发表于 2022-10-25 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，实例分割阅读次数：本文字数： 1.6k 阅读时长 ≈ 1 分钟

yolactplusplus 通过引入可变形卷积、使用更多的 anchor、重新生成的 Mask scoreing 分支等措施，改进了 yolact 模型

什么是 yolactplusplus ？

YOLACT 主要是通过两个并行的子网络来实现实例分割的。(1) Prediction Head 分支生成各个 anchor 的类别置信度、位置回归参数以及 mask 的掩码系数；(2) Protonet 分支生成一组原型 mask。然后将原型 mask 和 mask 的掩码系数相乘，从而得到图片中每一个目标物体的 mask
yolactplusplus 通过引入可变形卷积、使用更多的 anchor、重新生成的 Mask scoreing 分支等措施，改进了 yolact 模型

Featrue Backbone&Featrue Pyramid：使用 ResNet101 提取图片特征，并引入可变形卷积，然后使用 FPN 结构进行特征融合
prototypes：从 P3 级别的特征生成全局的 prototype mask (138,138,32)，这里固定是 32 个 mask，后续所有实例的 mask 是这 32 个 mask 的线性组合
Predict Head：基于 anchor 预测目标的类别、位置和 Mask coefficients，其中 Mask coefficients 是每个 anchor 预测长度为 32 的向量，用于加权 prototypes，得到当前 anchor 的 mask 预测
corp&Threashold：根据定位结果和 Mask 预测结果，裁剪目标区域，并使用二值化求得目标的 Mask
Mask Re-Scoring：受 MS R-CNN 的启发，高质量的 mask 并不一定就对应着高的分类置信度，换句话说，以包围框得分来评价 mask 好坏并不合理，所以在模型后添加了 Mask Re-Scoring 分支，该分支使用 YOLACT 生成的裁剪后的原型 mask (未作阈值化) 作为输入，输出对应每个类别的 GT-mask 的 IoU

受 MS R-CNN 的启发，高质量的 mask 并不一定就对应着高的分类置信度，换句话说，以包围框得分来评价 mask 好坏并不合理，所以在模型后添加了 Mask Re-Scoring 分支，该分支使用 YOLACT 生成的裁剪后的原型 mask (未作阈值化) 作为输入，输出对应每个类别的 GT-mask 的 IoU