Skip to main content
QUICK REVIEW

[论文解读] High-Resolution Representations for Labeling Pixels and Regions

Ke Sun, Yang Zhao|arXiv (Cornell University)|Apr 9, 2019
Digital Image Processing Techniques参考文献 129被引用 661
一句话总结

本论文通过聚合来自所有并行高到低分辨率的表示来扩展 HRNet(HRNetV2),从而带来更强的高分辨率特征,在语义分割和面部关键点检测方面达到最先进的结果,并为目标检测提供强大的多级表示。

ABSTRACT

High-resolution representation learning plays an essential role in many vision problems, e.g., pose estimation and semantic segmentation. The high-resolution network (HRNet)~\cite{SunXLW19}, recently developed for human pose estimation, maintains high-resolution representations through the whole process by connecting high-to-low resolution convolutions in \emph{parallel} and produces strong high-resolution representations by repeatedly conducting fusions across parallel convolutions. In this paper, we conduct a further study on high-resolution representations by introducing a simple yet effective modification and apply it to a wide range of vision tasks. We augment the high-resolution representation by aggregating the (upsampled) representations from all the parallel convolutions rather than only the representation from the high-resolution convolution as done in~\cite{SunXLW19}. This simple modification leads to stronger representations, evidenced by superior results. We show top results in semantic segmentation on Cityscapes, LIP, and PASCAL Context, and facial landmark detection on AFLW, COFW, $300$W, and WFLW. In addition, we build a multi-level representation from the high-resolution representation and apply it to the Faster R-CNN object detection framework and the extended frameworks. The proposed approach achieves superior results to existing single-model networks on COCO object detection. The code and models have been publicly available at \url{https://github.com/HRNet}.

研究动机与目标

  • 推动并改进面向像素/区域标注任务的高分辨率表示,超越姿态估计。
  • 探讨对 HRNet 的一个简单修改,以利用所有并行分辨率的表示。
  • 在语义分割、面部关键点检测和目标检测任务中展示该方法。
  • 表明多级高分辨率特征在小物体检测和整体性能方面的提升。

提出的方法

  • 通过并行多分辨率卷积和重复的多尺度融合来维持高分辨率表示。
  • 通过聚合来自所有并行分辨率的上采样表示,而不是仅来自高分辨率流,来引入 HRNetV2。
  • 对低分辨率分支的特征进行上采样并连接,形成更丰富的高分辨率表示。
  • 对于检测,将高分辨率表示下采样以创建用于特征金字塔的多级特征(HRNetV2 p)。
  • 以四阶段骨干网络和多分辨率块实例化;在任务特定头之前混合来自所有分辨率的特征。
  • 将分割头应用于高分辨率输出用于语义分割和面部关键点热力图,并为 Faster R-CNN/Mask R-CNN/Cascade R-CNN 构建多级特征。

实验结果

研究问题

  • RQ1是否通过聚合所有从高到低分辨率分支的表示来提升高分辨率特征的质量?
  • RQ2HRNetV2 表示是否比原始 HRNet 在语义分割和面部关键点检测上取得更好结果?
  • RQ3多级 HRNet 表示是否能提升像 Faster R-CNN 及其扩展变体等目标检测框架的性能?

主要发现

  • HRNetV2 通过利用所有并行分辨率,显著强化了高分辨率表示。
  • 在 Cityscapes、PASCAL Context 和 LIP 的语义分割上实现了最先进的结果,且模型大小和计算量高效。
  • 在 AFLW、COFW、300W 和 WFLW 的面部关键点检测上取得最佳结果。
  • 多级 HRNet 表示(HRNetV2 p)在集成到 Faster R-CNN/Mask R-CNN/Cascade R-CNN 时提升了 COCO 目标检测。
  • 在 COCO test-dev 上,Faster R-CNN 和 Cascade R-CNN 设置下,无需多尺度训练/测试即可超越同类单模型检测器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。