RMPE:Regional Multi-person Pose Estimation

RMPE 是一个二阶段的姿态估计模型,主要是通过对称空间变换网络 (SSTN)来提取高质量的单人区域,解决人体检测框质量不高的问题

什么是 RMPE ?

  • RMPE 是一个二阶段的姿态估计模型,主要是通过对称空间变换网络 (SSTN)来提取高质量的单人区域,解决人体检测框质量不高的问题

RMPE 的网络结构?

  • STN&SDTN:[[STN]] 提取高质量单人区域,来克服检测框质量不高的问题;SDTN 是 STN 的仿射矩阵逆变换,用于将预测结果打到变换前的图片上
  • p-Pose NMS:参数化姿态非最大抑制,解决姿态的冗余检测问题
  • Parallel-SPPE:作为在训练阶段一个额外的 regularizer,以避免局部极小值,进一步利用 SSTN 的能力
  • PGPG:姿态引导区域框生成器,用于数据增强,以获得更好地模型性能

RMPE 的 SSTN 和 P-SPPE?

  • Human Detector 产生的 proposal 通常不能很好的适配 SPPE(单人姿态估计),[[STN]] 通过学习仿射变换矩阵,通过该矩阵变换图像后得到高质量单人区域
  • 训练时,P-SPPE 冻结所有层的权重,以鼓励STN提取主要的单人区域

RMPE 的 P-NMS(Paramertric Pose NMS)?

  • 人体定义可能有冗余框,导致姿态检测出现冗余姿态,P-NMS 用于消除一个人的多个姿态估计问题
  • 对于一个人的姿态 Pi,有 m 个关节点记做 (ki1,ci1k_i^1,c_i^1), (ki2,ci2k_i^2,c_i^2), (kim,cimk_i^m,c_i^m),kijk_i^j 和 cijc_i^j 分别表示第 j 个部位的坐标位置和置信度分数。首先选取具有最高置信度的姿态作为参照,靠近它的姿态通过elimination criterion来消除。该步骤将重复执行,直到只有一个姿态
  • elimination criterion:用于衡量两个姿态之间的相似度 (Pose Distance) d(Pi,PjΛ,λ)d(P_i,P_j\mid\Lambda,\lambda),类似 NMS 的 IOU,相似度大于阈值,姿态 PjP_j 应该被消除

    f(Pi,PjΛ,η)=Π[d(Pi,PjΛ,λ)η]f(P_i,P_j\mid\Lambda,\eta)=\Pi[d(P_i,P_j\mid\Lambda,\lambda)\geq\eta]

  • Pose Distance:通过两个函数计算 d(Pi,PjΛ,λ)d(P_i,P_j\mid\Lambda,\lambda) 的值,其中 soft matching 函数评估在检测框内的评估分,表示姿态之间的空间距离

    KSim(Pi,Pjσ1)={ntanhcinσ1tanhcjnσ1ifkjnis withinB(kin);0otherwiseHsim(Pi,Pjσ2)=Σnexp[(kinkjn)2σ2]d(Pi,PjΛ)=KSim(Pi,Pjσ1)+λHsim(Pi,Pjσ2)\begin{array}{l}K_{Sim}(P_i,P_j\mid\sigma_1)=\begin{cases}\sum_ntanh\frac{c_i^n}{\sigma_1}\cdot{tanh\frac{c_j^n}{\sigma_1}}&\textit{if}k_j^n\textit{is within}B(k_i^n);\\ 0&\textit{otherwise}\end{cases} \\H_{sim}(P_i,P_j\mid\sigma_2)=\Sigma_n exp[-\dfrac{(k_i^n-k_j^n)^2}{\sigma_2}]\\d(P_i,P_j\mid\Lambda) = K_{Sim}(P_i,P_j\mid\sigma_1)+\lambda H_{sim}(P_i,P_j\mid\sigma_2)\end{array}

RMPE 的 PGPG 数据增强?

  • PGPG 是一种数据增强方式,用来增加训练数据集。通过学习对于不同姿势的人体检测器的输出分布,模拟人体边界框的生成,产生大量的训练数据样本,增强 STD针对不同 human detector 结果的能力
  • 论文首先统计不同 pose 下 P,human detector 的结果与 GT bodding box 之间的偏差 δB\delta B 分布 P(δBP)P(\delta B|P),最后通过固定 P,然后得到不同的偏差范围 [xmin, xmax], [ymin, ymax],随机从这些范围内取值,生成扰动的 human detector 结果,即数据增强了

RMPE 的损失函数?

  • 多阶段的损失,首先是训练 STN 时,其次训练 SSPE,都是使用类似分割的损失

参考:

  1. 论文笔记_人体姿态估计:RMPE - 知乎
  2. 论文精读:Reginal Multi-Person Pose Estimation - 知乎
  3. 论文笔记_人体姿态估计:RMPE - 知乎