QUICK REVIEW

[논문 리뷰] Deep High-Resolution Representation Learning for Visual Recognition

Jingdong Wang, Ke Sun|arXiv (Cornell University)|2019. 08. 20.

Advanced Neural Network Applications참고 문헌 186인용 수 351

한 줄 요약

고해상도 네트워크(HRNet)는 병렬로 다중 해상도 스트림을 연결하고 해상도 간 정보를 반복적으로 교환하여 모든 단계에서 고해상도 표현을 유지함으로써 자세 추정, 의미 분할, 객체 탐지에서 강한 성능을 달성합니다.

ABSTRACT

High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution representation through a subnetwork that is formed by connecting high-to-low resolution convolutions \emph{in series} (e.g., ResNet, VGGNet), and then recover the high-resolution representation from the encoded low-resolution representation. Instead, our proposed network, named as High-Resolution Network (HRNet), maintains high-resolution representations through the whole process. There are two key characteristics: (i) Connect the high-to-low resolution convolution streams \emph{in parallel}; (ii) Repeatedly exchange the information across resolutions. The benefit is that the resulting representation is semantically richer and spatially more precise. We show the superiority of the proposed HRNet in a wide range of applications, including human pose estimation, semantic segmentation, and object detection, suggesting that the HRNet is a stronger backbone for computer vision problems. All the codes are available at~{\url{https://github.com/HRNet}}.

연구 동기 및 목표

고해상도 세부 정보가 중요한 위치-민감 비전 표현의 필요성을 제시한다.
처리 전 과정에서 고해상도 표현을 보존하는 네트워크 아키텍처를 제안하고, 저해상도 특징에서 다시 구성(recover)하는 방식이 아니라 보존한다.
반복적인 교차 해상도 융합을 가진 병렬 다중 해상도 스트림이 의미적으로 풍부하고 공간적으로 정밀한 표현을 산출함을 보인다.
자세 추정, 의미 분할, 객체 탐지와 같은 다양한 비전 작업에서 HRNet의 우수성을 보여준다.

제안 방법

고해상도 스템으로 초기화하고 점진적으로 고해상도에서 저해상도 스트림을 병렬로 추가한다.
네 개의 병렬 해상도 스트림을 유지하고 해상도 간 정보를 교환하기 위해 반복적인 다중 해상도 융합을 수행한다.
고해상도 또는 다중 해상도 융합 표현을 출력하기 위한 세 가지 표현 헤드(HRNetV1, HRNetV2, HRNetV2+p)를 정의한다.
잔차 유닛과 배치 정규화를 포함하고 깊이와 채널 폭이 증가하는 다중 해상도 가지를 가진 네 단계의 HRNet을 인스턴스화한다.
해상도 간 다운샘플링 또는 업샘플링을 수행하는 융합 변환을 설정하여 일관된 다중 해상도 표현을 생성한다.

실험 결과

연구 질문

RQ1네트워크 전반에 걸쳐 고해상도 표현을 보존하는 것이 위치-민감 비전 작업의 성능을 향상시킬 수 있는가?
RQ2병렬 다중 해상도 스트림과 반복적인 교차 해상도 융합은 일반적인 다운샘플링 후 복원하는 백본과 비교해 비전 작업에서 어떤 차이를 보이는가?
RQ3자세 추정, 분할, 탐지에서 서로 다른 HRNet 헤드 설계(V1, V2, V2+p)의 성능에 미치는 영향은 무엇인가?
RQ4비슷한 모델 크기와 계산량을 가진 상태에서 HRNet 기반 백본이 의미 분할 및 객체 탐지 벤치마크에서 최첨단 결과를 제공하는가?

주요 결과

HRNet은 COCO에서 고해상도 백본으로 강력한 자세 추정 성능을 달성하며 이전 방법들을 능가하는 한편 더 낮거나 동등한 계산 비용을 유지한다.
HRNetV2 및 HRNetV2+p 변형은 Cityscapes, PASCAL-Context, LIP와 같은 의미 분할 벤치마크에서 비슷한 모델 크기와 더 낮은 계산으로 최첨단 결과를 산출한다.
4해상도 병렬 설계와 반복 융합은 고수준 및 중간 수준 표현을 강화하여 작업 전반에서 위치 추정 및 분할 품질을 향상시킨다.
HRNet 기반 탐지기는 Faster R-CNN, Cascade R-CNN, FCOS, CenterNet 등 표준 탐지 프레임워크에 통합되어 탐지 성능을 향상시키며, 특히 작은 물체의 경우에 더 큰 향상을 보인다.
본 논문은 여러 데이터셋과 작업에서 낮은 해상도 백본으로부터 고해상도 표현을 복원하는 방식에 의존하던 기존 아키텍처를 능가하는 HRNet의 우수성을 포괄적으로 비교하여 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.