CAM:Learning Deep Features for Discriminative Localization

和ZFNet类似,是一篇分析CNN原理的经典论文,对后来的弱监督学习有很大的启发,本文证明2个结论:(1)CNN提取的featrue含有位置信息,尽管我们在训练时没有标注位置信息;(2)这些位置信息可以转移到其他认知任务中

什么是类别激活映射图 (Class Activation Mapping, CAM)?

  • CAM-20230408135816
  • 类别激活映射图,也称为类热力图、显著性图等,可以理解为图像中的信息对预测结果的贡献排名,分数越高(颜色越“热”)的地方表示在输入图片中这块区域对网络的响应越高、贡献越大,也就是吸引网络注意力的地方
  • CAM 主要是通过 全局平均池化(Global Average Pooling,GAP) 来实现,在最后一个卷积层后面,先接一个 GAP 层,然后才是分类层 softmax。如图首先对最后卷积层输出 X 取 GAP 得到 A (CHW->C),然后用 A 去加权求和 X,即得到 CAM。通过观察 CAM,可以发现模型响应的大部分特征是和识别的目标强相关的

CAM 的网络结构?

  • CAM-20230408135816
  • 通过在不同分类模型的最后一层卷积后接 GAP 进行分类,比较分类的准确度