[论文解读] Deep High-Resolution Representation Learning for Visual Recognition
高分辨率网络(HRNet)通过并行连接多分辨率流并在各分辨率之间反复交换信息,在所有阶段保持高分辨率表示,在姿态估计、语义分割和目标检测等任务上取得了强劲结果。
High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution representation through a subnetwork that is formed by connecting high-to-low resolution convolutions \emph{in series} (e.g., ResNet, VGGNet), and then recover the high-resolution representation from the encoded low-resolution representation. Instead, our proposed network, named as High-Resolution Network (HRNet), maintains high-resolution representations through the whole process. There are two key characteristics: (i) Connect the high-to-low resolution convolution streams \emph{in parallel}; (ii) Repeatedly exchange the information across resolutions. The benefit is that the resulting representation is semantically richer and spatially more precise. We show the superiority of the proposed HRNet in a wide range of applications, including human pose estimation, semantic segmentation, and object detection, suggesting that the HRNet is a stronger backbone for computer vision problems. All the codes are available at~{\url{https://github.com/HRNet}}.
研究动机与目标
- 在高空间细节至关重要的情况下,阐明对位置敏感的视觉表示的需求。
- 提出一种在整个处理过程中保持高分辨率表示的网络架构,而不是从低分辨率特征恢复。
- 展示具有重复跨分辨率融合的并行多分辨率流能够产生语义丰富且空间精确的表示。
- 证明 HRNet 在姿态估计、语义分割和目标检测等多种视觉任务上的优越性。
提出的方法
- 以高分辨率干线初始化,并在并行中逐步添加高到低分辨率的流。
- 维持四条并行分辨率流,并进行重复的多分辨率融合以在分辨率之间交换信息。
- 定义三种表示头(HRNetV1、HRNetV2、HRNetV2+p)以输出高分辨率或多分辨率融合的表示。
- 实例化 HRNet,包含四个阶段,含有深度和通道宽度逐步增加的多分辨率分支,带有残差单元和批量归一化。
- 建立在不同分辨率之间下采样或上采样的融合变换,以产生一致的多分辨率表示。
实验结果
研究问题
- RQ1在整个网络中保持高分辨率表示是否能提高对位置敏感的视觉任务的性能?
- RQ2并行多分辨率流和重复跨分辨率融合与传统的先下采样再恢复的骨干网络在视觉任务上有何比较?
- RQ3不同的 HRNet 头设计(V1、V2、V2+p)对姿态估计、分割和检测等任务的性能有何影响?
- RQ4基于 HRNet 的骨干网络在尺寸和计算量相当的情况下,是否在语义分割和目标检测基准上提供了最先进的结果?
主要发现
- HRNet 在 COCO 数据集上的姿态估计表现强劲,使用高分辨率主干在优于以往方法的同时保持较低或相当的计算成本。
- HRNetV2 和 HRNetV2+p 变体在 Cityscapes、PASCAL-Context、LIP 等语义分割基准上取得最先进结果,且模型尺寸相近、计算量更低。
- 四分辨率并行设计与重复融合加强了高层和中层表示,从而在各任务中提升定位和分割质量。
- 基于 HRNet 的检测器(HRNetV2p)集成到标准检测框架中(例如 Faster R-CNN、Cascade R-CNN、FCOS、CenterNet),提高检测性能,尤其是对小物体。
- 本文提供了全面的比较,显示 HRNet 超越那些依赖从低分辨率骨干恢复高分辨率表示的先前结构,在多数据集和任务上。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。