Skip to main content
QUICK REVIEW

[논문 리뷰] OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation

Bruno Artacho, Andreas Savakis|arXiv (Cornell University)|2021. 03. 18.
Human Pose and Action Recognition참고 문헌 40인용 수 31
한 줄 요약

OmniPose는 개선된 HRNet 백본과 새로운 Waterfall Atrous Spatial Pyramid (WASPv2) 모듈 및 가우시안 히트맵 모듈화를 결합하여 단일 패스의 엔드투엔드 프레임워크에서 다중 인원 2D 자세 추정에서 최첨단 성능을 제공합니다. 여기에 경량화 버전인 OmniPose-Lite도 포함됩니다.

ABSTRACT

We propose OmniPose, a single-pass, end-to-end trainable framework, that achieves state-of-the-art results for multi-person pose estimation. Using a novel waterfall module, the OmniPose architecture leverages multi-scale feature representations that increase the effectiveness of backbone feature extractors, without the need for post-processing. OmniPose incorporates contextual information across scales and joint localization with Gaussian heatmap modulation at the multi-scale feature extractor to estimate human pose with state-of-the-art accuracy. The multi-scale representations, obtained by the improved waterfall module in OmniPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on multiple datasets demonstrate that OmniPose, with an improved HRNet backbone and waterfall module, is a robust and efficient architecture for multi-person pose estimation that achieves state-of-the-art results.

연구 동기 및 목표

  • 단일 패스의 엔드투엔드 학습 가능 네트워크를 통해 다중 인원 2D 자세 추정을 향상시키는 것.
  • 포스트 프로세싱 없이 관절 위치를 향상시키기 위해 다중 스케일 특징 표현 활용.
  • WASPv2 모듈과 가우시안 히트맵 모듈화를 통해 효율성과 정확도 향상.
  • 모바일/임베디드 플랫폼에 적합한 경량 변형(OmniPose-Lite)을 제공.

제안 방법

  • 향상된 고해상도 다중 스케일 특징을 추출하기 위해 수정된 HRNet 백본을 사용한다.
  • WASPv2를 도입: 해상도 보존과 수용 영역 확장을 위해 확장된 Atrous 합성곱(확장 [1,6,12,18])이 결합된 고급 워터풀 모듈로, 특징 추출과 디코딩을 단일 유닛에 통합한다.
  • 보간/디컨볼루션 중 가우시안 히트맵 모듈화를 적용하여 서브픽셀 관절 위치 추정이 가능하고 양자화 오차를 줄인다.
  • 표준 합성곱을 분리합성곱으로 교체하여 정확도를 해치지 않으면서 매개변수 수와 GFLOPs를 줄인다.
  • 별도의 디코더나 포스트프로세싱 없이 WASPv2에서 최종 히트맵을 직접 출력한다.

실험 결과

연구 질문

  • RQ1다중 스케일의 단일 패스 아키텍처가 포스트 프로세싱 없이 다중 인원 포즈 추정에서 최첨단 정확도를 달성할 수 있는가?
  • RQ2고해상도 다중 스케일 인코더–디코더와 가우시안 히트맵 모듈화를 통합하는 것이 관절 위치 정확도에 미치는 영향은 무엇인가?
  • RQ3이전 WASP/HRNet 베이스라인에 비해 WASPv2 모듈은 정확도와 효율성에 어떤 영향을 미치는가?
  • RQ4경량화 버전인 OmniPose-Lite가 경쟁력 있는 정확도를 유지하면서 모바일/임베디드 플랫폼에서도 가능한가?

주요 결과

방법입력 크기매개변수 (M)GFLOPsAPAP50AP75APMAPLAR
OmniPose (WASPv2)384x28868.137.979.5%93.6%85.9%76.0%84.6%81.9%
OmniPose (WASP)384x28868.238.679.2%93.6%85.7%75.9%84.2%81.6%
DarkPose384x28863.632.976.8%90.6%83.2%72.8%84.0%81.7%
HRNet384x28863.632.976.3%90.8%82.9%72.3%83.4%81.2%
OmniPose-Lite256x19219.45.871.4%-----
  • WASPv2를 도입한 OmniPose는 MPII와 COCO에서 포스트프로세싱이나 앵커 포즈 없이 최첨단 성능을 달성합니다(예: MPII PCKh@0.2까지 92.3%).
  • COCO 검증에서 OmniPose(WASv2)는 AP 37.9 및 AP50 79.5%를 달성하며 여러 선행 방법을 능가합니다; COCO test-dev에서 OmniPose는 AP 76.4%를 달성합니다.
  • OmniPose-Lite는 GFLOPs를 74.3% 감소시켜 22.6에서 5.8로, 매개변수 수를 71.4% 감소시켜 67.9M에서 19.4M으로 줄이는 동안 강한 정확도를 유지하며 모바일 배포에 적합합니다.
  • 가우시안 히트맵 모듈화는 디코딩 중 보간으로 인한 양자화 오차를 해결하여 위치 추정 정확도를 향상시킵니다.
  • 통합된 WASPv2 디코더는 고해상도에서 바로 관절 히트맵을 출력하므로 추가 디코딩 단계의 필요성이 감소합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.