Simple Baselines for Human Pose Estimation and Tracking
当前的人体姿态估计在深度学习里的发展取得了很大成功,但是在这个领域的神经网络结构变得越来越复杂,也导致对于算法的分析和比较越来越困难。所以作者提出了一个简单但是很有效的baseline网络,用来鼓励大家在这个基础之上进行创新同时使用这个baseline方法来判断新方法的表现
什么是 simple baseline ?
- 当前的人体姿态估计在深度学习里的发展取得了很大成功,但是在这个领域的神经网络结构变得越来越复杂,也导致对于算法的分析和比较越来越困难。所以作者提出了一个简单但是很有效的baseline网络,用来鼓励大家在这个基础之上进行创新同时使用这个baseline方法来判断新方法的表现
simple baseline 的 Pose Estimation Using A Deconvolution Head Network?
- 对比之前的 hourglass 和 CPN 的结构都会显得十分简单,只是简单地在 resNet 的最后一个卷积 stage 后面加了一些 deconvolutional layers。这些 deconvolutional layers 默认跟着一个 BN 和 ReLU。每一层都有256 * 4 * 4的卷积核,stride 为2。最后通过一个 1∗1 的卷积核计算得到 heatmaps
- simple baseline 网络和hourglass还有CPN最大的区别就是在head network(头部网络)是如何得到高分辨率的feature map的,前两个方法都是上采样得到heatmap,但是simple baseline的方法是使用deconv ,deconv相当于同时做了卷积和上采样
simple baseline 的 Pose Tracking Based on Optical Flow?
- 基础原理:使用 MaskRcnn 来进行人的检测,在视频第一帧中每个检测到的人给一个 id,然后之后的每一帧检测到的人都和上一帧检测到的人通过某种度量方式(文中提到的是计算检测框的 IOU)算一个相似度,将相似度大的作为同一个 id, 没有匹配到的分配一个新的 id
- 改进:1)除了检测网络之外,还使用光流法补充一些检测框,用以解决检测网络的漏检问题;2)使用 Object Keypoint Similarity (OKS)代替检测框的IOU来计算相似度。这是因为当人的动作比较快时,用IOU可能并不合理
参考: