CrowdPose:Efficient Crowded Scenes Pose Estimation and A New Benchmark
为解决传统 SPPE 处理密集姿态估计带来的偏差,CrowdPose 设计了 Joint Candidate SPPE 生成众多的候选关节点,然后通过 KM (Keypoint Match) 算法匹配行人实例和候选关节点
为解决传统 SPPE 处理密集姿态估计带来的偏差,CrowdPose 设计了 Joint Candidate SPPE 生成众多的候选关节点,然后通过 KM (Keypoint Match) 算法匹配行人实例和候选关节点
RMPE 是一个二阶段的姿态估计模型,主要是通过对称空间变换网络 (SSTN)来提取高质量的单人区域,解决人体检测框质量不高的问题
MSSA 认为尺度和遮挡是影响人体姿态估计的关键,因此提出多尺度监督网络 (MSS-net)和多尺度回归网络 (MSR-net)提升网络对不同尺度人体的学习能力
OpenPose 是一个 down-up 的多人姿态检测模型,一次性输出所有人的关节点 heatmap 预测,为了区分同一个人的关节点,模型同时输出关键点之间的亲和力PAFs,最终通过求二部图,得到预测结果
Pose Attention 是一个基于 hourglass 改进的网络,主要创新是同时结合了整体注意力和肢体部分注意力,整体注意力针对的是整体人体的全局一致性,部分注意力针对不同身体部分的详细描述. 因此,能够处理从局部显著区域到全局语义空间的不同粒度内容,同时引入条件随机场(CRF)来进行空间相关建模,而不是使用全局Softmax
Hourglass 认为识别脸和手是需要局部信息的,而整体的姿态识别需要整个身体的信息。因此,整合各种尺度的信息是必要的。采取重复的自底向上、自顶向下模块学习图片特征,相当于使用不同的感受野观察图片,结合中间监督,加速模型收敛
人体关节之间是存在一定的关系的,传统做法是使用马尔科夫模型构建他们之间的关联。CPM 没有使用该方法,而是使用卷积去提取关节之间的关系。主要思路是将网络结构分为多个 stage,其中第一个 stage 会产生初步的关键点的检测效果,接下来的几个 stage 均以前一个 stage 的预测输出和从原图提取的特征作为输入,最后使用多 satge 监督网络训练
语义分割是对像素进行分类,而像素的类别标签是由它所在的目标的类别标签决定的,通常的上下文信息是基于像素之间的,OCRNet 根据类别数量,基于"自注意力机制"显式地增强来自同一物体的像素贡献
OCNet设计OCP模块,通过分块设计稀疏的空间注意力,减少构建注意力的性能损耗
传统的文本识别方法需要先对单个文字进行切割,然后再对单个文字进行识别。CRNN直接从整张图出发,将图片特征输入RNN进行序列学习,最后通过CTC计算损失