MSSA:Multi-Scale Structure-Aware Network for Human Pose Estimation
MSSA 认为尺度和遮挡是影响人体姿态估计的关键,因此提出多尺度监督网络 (MSS-net)和多尺度回归网络 (MSR-net)提升网络对不同尺度人体的学习能力
什么是 MSSA ?
- MSSA 认为尺度和遮挡是影响人体姿态估计的关键,上图第一行是人体不同位置尺度不一样,第二行包含被遮挡的部分,第三行是拥挤场景下的关键点检测
- MSSA 提出多尺度监督网络 (MSS-net)和多尺度回归网络 (MSR-net)提升网络对不同尺度人体的学习能力
MSSA 的网络结构?
- 基于 hourglass 的基本结构,每个 stage 是 MSS-Net,最后是 MSR-Net
- MSS-Net:通过组合不同scale下的heatmap来加强人体关键点匹配的上下文特征学习
- MSR-Net:在网络最后,用于优化multi-scale特征之间的匹配
- structure-aware loss:用在回归网络的中间监督层以提高关键点和邻居节点之间的特征匹配从而推断出一个较好的匹配机制
MSSA 的 multi-scale supervision network?
- 在最后的 MSS-Net 中,计算 1/2、1/4、1/8 这 3 个尺度的 loss,也就是多尺度监督
MSSA 的 multi-scale regression network?
- MSR-net 将多尺度热图作为输入,并将它们与各自尺度上的 groundtruth 关键点进行匹配。通过这种方式,回归网络可以有效地结合所有尺度的热图来细化估计的姿态
- a 是 MSS 的关键点预测,b 是对应 a 预测的 MSS 的 heatmap,c 是 MSR 的关键点,d 是对应 MSR 的 heatmap。d 比 c 的信息更加集中
MSSA 的 structure-aware loss?
- 网络较深的时候,会出现梯度消失现象,可以使用中间监督来缓解。本文设计出了结构损失,其借鉴来源于人体骨骼拓扑结构,将人体骨骼结构中物理相连的关键点结合起来作为连接的关节点。结合起来的关键点设计如下图所示,有三元关键点结合(手臂和腿部,骨盆可以先不三元)和两元关键点结合
- 损失函数就变得如下面公式所示,在两个地方使用结构损失:(1)在 MSS-Net 中作为中间监督,去强迫使用全局信息定位局部关键点;(2)MSR-Net 寻找全局的姿态配置。下面的公式中,N 为关键点的数量, 表示为单独的关键点, 表示与此点连接的关键点对
MSSA 的 keypoint masking training scheme?
- 一种关键点 masking 数据增强方案来增加训练网络的遮挡能力,有几种不同的遮挡:被东西遮挡、自遮挡、被其他人遮挡。(a)表示左手腕被遮挡住了,但可以通过可见关键点的连接结构来估计左手手腕的关键点定位。c 表示如果有其他人考的比较近,也会造成很大的麻烦
- 通过在图片上复制和粘贴关键点的贴片(patches)来增强数据,如下图(d)所示,其主要思想是生成关键点遮挡的训练样本和人工插入的关键点,从而有效提高网络对这些极端情况的学习能力
参考: