[논문 리뷰] OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation
OmniPose는 개선된 HRNet 백본과 새로운 Waterfall Atrous Spatial Pyramid (WASPv2) 모듈 및 가우시안 히트맵 모듈화를 결합하여 단일 패스의 엔드투엔드 프레임워크에서 다중 인원 2D 자세 추정에서 최첨단 성능을 제공합니다. 여기에 경량화 버전인 OmniPose-Lite도 포함됩니다.
We propose OmniPose, a single-pass, end-to-end trainable framework, that achieves state-of-the-art results for multi-person pose estimation. Using a novel waterfall module, the OmniPose architecture leverages multi-scale feature representations that increase the effectiveness of backbone feature extractors, without the need for post-processing. OmniPose incorporates contextual information across scales and joint localization with Gaussian heatmap modulation at the multi-scale feature extractor to estimate human pose with state-of-the-art accuracy. The multi-scale representations, obtained by the improved waterfall module in OmniPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on multiple datasets demonstrate that OmniPose, with an improved HRNet backbone and waterfall module, is a robust and efficient architecture for multi-person pose estimation that achieves state-of-the-art results.
연구 동기 및 목표
- 단일 패스의 엔드투엔드 학습 가능 네트워크를 통해 다중 인원 2D 자세 추정을 향상시키는 것.
- 포스트 프로세싱 없이 관절 위치를 향상시키기 위해 다중 스케일 특징 표현 활용.
- WASPv2 모듈과 가우시안 히트맵 모듈화를 통해 효율성과 정확도 향상.
- 모바일/임베디드 플랫폼에 적합한 경량 변형(OmniPose-Lite)을 제공.
제안 방법
- 향상된 고해상도 다중 스케일 특징을 추출하기 위해 수정된 HRNet 백본을 사용한다.
- WASPv2를 도입: 해상도 보존과 수용 영역 확장을 위해 확장된 Atrous 합성곱(확장 [1,6,12,18])이 결합된 고급 워터풀 모듈로, 특징 추출과 디코딩을 단일 유닛에 통합한다.
- 보간/디컨볼루션 중 가우시안 히트맵 모듈화를 적용하여 서브픽셀 관절 위치 추정이 가능하고 양자화 오차를 줄인다.
- 표준 합성곱을 분리합성곱으로 교체하여 정확도를 해치지 않으면서 매개변수 수와 GFLOPs를 줄인다.
- 별도의 디코더나 포스트프로세싱 없이 WASPv2에서 최종 히트맵을 직접 출력한다.
실험 결과
연구 질문
- RQ1다중 스케일의 단일 패스 아키텍처가 포스트 프로세싱 없이 다중 인원 포즈 추정에서 최첨단 정확도를 달성할 수 있는가?
- RQ2고해상도 다중 스케일 인코더–디코더와 가우시안 히트맵 모듈화를 통합하는 것이 관절 위치 정확도에 미치는 영향은 무엇인가?
- RQ3이전 WASP/HRNet 베이스라인에 비해 WASPv2 모듈은 정확도와 효율성에 어떤 영향을 미치는가?
- RQ4경량화 버전인 OmniPose-Lite가 경쟁력 있는 정확도를 유지하면서 모바일/임베디드 플랫폼에서도 가능한가?
주요 결과
| 방법 | 입력 크기 | 매개변수 (M) | GFLOPs | AP | AP50 | AP75 | APM | APL | AR |
|---|---|---|---|---|---|---|---|---|---|
| OmniPose (WASPv2) | 384x288 | 68.1 | 37.9 | 79.5% | 93.6% | 85.9% | 76.0% | 84.6% | 81.9% |
| OmniPose (WASP) | 384x288 | 68.2 | 38.6 | 79.2% | 93.6% | 85.7% | 75.9% | 84.2% | 81.6% |
| DarkPose | 384x288 | 63.6 | 32.9 | 76.8% | 90.6% | 83.2% | 72.8% | 84.0% | 81.7% |
| HRNet | 384x288 | 63.6 | 32.9 | 76.3% | 90.8% | 82.9% | 72.3% | 83.4% | 81.2% |
| OmniPose-Lite | 256x192 | 19.4 | 5.8 | 71.4% | - | - | - | - | - |
- WASPv2를 도입한 OmniPose는 MPII와 COCO에서 포스트프로세싱이나 앵커 포즈 없이 최첨단 성능을 달성합니다(예: MPII PCKh@0.2까지 92.3%).
- COCO 검증에서 OmniPose(WASv2)는 AP 37.9 및 AP50 79.5%를 달성하며 여러 선행 방법을 능가합니다; COCO test-dev에서 OmniPose는 AP 76.4%를 달성합니다.
- OmniPose-Lite는 GFLOPs를 74.3% 감소시켜 22.6에서 5.8로, 매개변수 수를 71.4% 감소시켜 67.9M에서 19.4M으로 줄이는 동안 강한 정확도를 유지하며 모바일 배포에 적합합니다.
- 가우시안 히트맵 모듈화는 디코딩 중 보간으로 인한 양자화 오차를 해결하여 위치 추정 정확도를 향상시킵니다.
- 통합된 WASPv2 디코더는 고해상도에서 바로 관절 히트맵을 출력하므로 추가 디코딩 단계의 필요성이 감소합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.