PRTR:Pose Recognition with Cascade Transformers

PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置

什么是 PRTR?

  • PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置
  • PRTR 是一个两阶段的模型,第一阶段使用 DETR 找到 human 位置,第二阶段对每个人预测关键点

PRTR 的模型结构?

  • Person Detection Transformer:基于 DETR 的检测方法,用一个 CNN Backbone 提取 RGB feature,然后通过 encoder 编码上下文关系,decoder 预测 bbox,得到 bbox 后,对 original image 进行 crop
  • Keypoint Detection Transformer:得到 crop 后的 image 和对应的 positional encoding 之后,送进 encoder 学习

PRTR 的"Keypoint Detection Transformer"部分如何训练、推理?

  • 训练:初始化可学习的 queries,然后训练 transformer,最后输出 N 个序列的预测集合,接着使用匈牙利匹配算法计算损失,更新网络
  • 推理:根据输入图片及学习到的 queries,得到图片所有关键点的位置

PRTR 的 end2end 的模型结构?

  • PRTR 根据自己的思想设计的另一个端到端的模型,该模型也是 2 阶段的过程,和原始模型区别在于其融合了多尺度特征

PRTR 的 queries 与关键点的关系?

  • queries 与关键点位置:Keypoint Detection Transformer 的 decoder 使用 100 个 queries,最后输出也是 100 个关键点的位置输出,将这些预测的关键点位置按类别可视化后,通过分析 queries 与类别的关系,可知 queries 输出的关键点一定程度反应其真实位置
  • queries 与关键点类别:Keypoint Detection Transformer 的 decoder 使用 100 个 queries,最后输出也是 100 个关键点的类别输出,通过分析 queries 与类别的关系,可知特定的 queries 倾向输出特定的关键点

参考:

  1. 【CVPR 2021】PRTR:基于transformer的2D Human Pose Estimation - 知乎