PRTR:Pose Recognition with Cascade Transformers
PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置
什么是 PRTR?
- PRTR 是针对2D Pose Estimation 提出了基于 cascade transformer 结构的人体姿态估计网络,该网络首先使用 CNN 提取特征,然后使用 transformer 学习注意力,并最终使用类似 transformer-decoder 的方式逐个输出特征点位置
- PRTR 是一个两阶段的模型,第一阶段使用 DETR 找到 human 位置,第二阶段对每个人预测关键点
PRTR 的模型结构?
- Person Detection Transformer:基于 DETR 的检测方法,用一个 CNN Backbone 提取 RGB feature,然后通过 encoder 编码上下文关系,decoder 预测 bbox,得到 bbox 后,对 original image 进行 crop
- Keypoint Detection Transformer:得到 crop 后的 image 和对应的 positional encoding 之后,送进 encoder 学习
PRTR 的"Keypoint Detection Transformer"部分如何训练、推理?
- 训练:初始化可学习的 queries,然后训练 transformer,最后输出 N 个序列的预测集合,接着使用匈牙利匹配算法计算损失,更新网络
- 推理:根据输入图片及学习到的 queries,得到图片所有关键点的位置
PRTR 的 end2end 的模型结构?
- PRTR 根据自己的思想设计的另一个端到端的模型,该模型也是 2 阶段的过程,和原始模型区别在于其融合了多尺度特征
PRTR 的 queries 与关键点的关系?
- queries 与关键点位置:Keypoint Detection Transformer 的 decoder 使用 100 个 queries,最后输出也是 100 个关键点的位置输出,将这些预测的关键点位置按类别可视化后,通过分析 queries 与类别的关系,可知 queries 输出的关键点一定程度反应其真实位置
- queries 与关键点类别:Keypoint Detection Transformer 的 decoder 使用 100 个 queries,最后输出也是 100 个关键点的类别输出,通过分析 queries 与类别的关系,可知特定的 queries 倾向输出特定的关键点
参考: