HRNet：Deep High-Resolution Representation Learning for Visual Recognition

发表于 2022-03-18 更新于 2023-10-24 分类于 2-深度学习， F-人体姿态估计阅读次数：本文字数： 1.2k 阅读时长 ≈ 1 分钟

HRNet 设计了并行的多分辨率分支，提取特征的同时，保持高分辨率，同时设计不同分支之间的特征融合，获得多尺度特征

什么是 HRNet ？

计算机很多任务是“位置敏感”类型的，比如分割、目标检测、关键点检测，通常的做法是下采样提取语义特征后，通过上采样恢复高分辨率，但是这样的做法会丢失位置信息。
HRNet 设计了并行的多分辨率分支，提取特征的同时，保持高分辨率，同时设计不同分支之间的特征融合，获得多尺度特征

HRNet 的网络结构？

HRNet 的结构可分为 4 种类型
BasicBlock：每个 stage 的基本结构，由多个分支组成
FuseLayer：用于融合不同分支的特征
TransitionLayer：使用当前分支产生新的分支
BottleNeck：使用不同的操作处理多分支输出，如只取最高分辨率的分支，所有分支上采样至最高分辨率 concat 等

HRNet 的 FuseLayer 模块？

用于融合不同分支的特征，HRNet 设计了 3 个分支，每个分支都有上采样、维持分辨率、下采样 3 种可能去向，最高分辨率的分支，只能维持分辨率和下采样，由此设计了一下不同分支的操作

HRNet 的 TransitionLayer 模块？

基于已有分支，产生新的分支，相当于融合多尺度特征得到某个分辨率特征，并进一步整合这个分辨率特征。新分支的分辨率是比以前分支分辨率都小的一个分支

HRNet 的 Neck 设计？

HR 设计了 3 种方式去使用 4 分支的输出，分别对应 HRNetv1、HRNetv2、HRNetv2p，(a)只使用最高分辨率的特征；(b)将所有分辨率的 feature map (小的特征图进行 upsample)进行 concate，主要用于语义分割和面部关键点检测；©在 HRNetV2的基础上，使用了一个特征金字塔，主要用于目标检测
对于分类任务，HRNet 设计另一个特殊的 neck，对每个 backbone 的输出分支进行降采样操作，同时从上到下逐级融合相加，最后用一个1x1conv 控制输出类别

不同分别率的特征对结果的影响？

研究不同分辨率的特征图如何影响人体姿态估计性能。作者训练了两个 HRNetV1 网络。网络输出从高到低分辨率的四个特征图，最低分辨率特征图上的热图预测质量太低，AP 分数低于 10 分。实验表明，分辨率确实会影响关键点预测质量

多分辨率特征融合对结果的影响？

研究了网络的三种变体。（a）无中间融合模块：多分辨率支路之间除了最终融合模块外没有融合。（b）跨阶段融合单元：每个阶段内的相同分辨率支路之间没有融合。（c）跨阶段阶段和内融合模块：这是 HRNet 的结构。多分辨率融合模块很有帮助，并且更多的融合会带来更好的性能

保持高分辨率对结果的影响？

将低分辨率特征图与高分辨率特征图融合做了对比试验。结果表明 HRNetV2 的低分辨率并行卷积中聚合表示对于提高准确度至关重要

参考：