QUICK REVIEW

[논문 리뷰] Rethinking on Multi-Stage Networks for Human Pose Estimation

Wenbo Li, Zhicheng Wang|arXiv (Cornell University)|2019. 01. 01.

Human Pose and Action Recognition참고 문헌 46인용 수 109

한 줄 요약

이 논문은 멀티스테이지 포즈 추정을 재검토하고, 더 나은 단일 스테이지 모듈, 단계 간 피처 어그리게이션, 그리고 거친-정밀 감독을 통해 MSPN이 COCO와 MPII에서 최첨단 SOTA 결과를 달성한다는 것을 보여주며, 멀티스테이지 설계가 단일 스테이지 설계보다 성능이 떨어진다는 고정관념에 도전한다.

ABSTRACT

Existing pose estimation approaches fall into two categories: single-stage and multi-stage methods. While multi-stage methods are seemingly more suited for the task, their performance in current practice is not as good as single-stage methods. This work studies this issue. We argue that the current multi-stage methods' unsatisfactory performance comes from the insufficiency in various design choices. We propose several improvements, including the single-stage module design, cross stage feature aggregation, and coarse-to-fine supervision. The resulting method establishes the new state-of-the-art on both MS COCO and MPII Human Pose dataset, justifying the effectiveness of a multi-stage architecture. The source code is publicly available for further research.

연구 동기 및 목표

도전적인 포즈 데이터셋에서 멀티스테이지 네트워크가 단일 스테이지보다 성능이 떨어지는 이유를 평가한다.
포즈 추정을 위한 멀티스테이지 아키텍처의 잠재력을 끌어내기 위한 개선점을 설계한다.
정교화된 단일 스테이지 모듈, 단계 간 피처 융합, 그리고 거친-정밀 감독의 효과를 입증한다.
이전 방법들과 비교하여 COCO와 MPII에서 MSPN을 평가하고 구성 요소의 기여를 분석한다.

제안 방법

감지된 사람 상자를 MSPN의 입력으로 사용하는 2단계 탑다운 프레임워크를 채택한다.
단순한 Hourglass 스타일의 단일 스테이지 모듈을 더 나은 특징 처리용으로 현대적이고 용량이 큰 단일 스테이지 모듈(CPN의 GlobalNet)로 교체한다.
다중 스케일 특징을 여러 단계에 걸쳐 전파하고 정보 흐름을 강화하기 위해 단계 간 피처 어그리게이션을 도입한다.
단계별 가우시안 커널 크기와 다수의 중간 스케일을 가진 거친-정밀 감독을 적용하여 위치 추정(로컬라이제이션)을 점진적으로 개선한다.
각 단계에서 가장 큰 스케일에서 온라인 하드 키 포인트 마이닝(OHKM)과 스케일 간 표준 L2 손실을 도입한다.

실험 결과

연구 질문

RQ1정교하게 다듬은 단일 스테이지 모듈이 멀티스테이지 포즈 네트워크의 성능을 향상시킬 수 있는가?
RQ2단계 간 피처 어그리게이션이 멀티스테이지 아키텍처의 정보 손실을 줄이는가?
RQ3거친-정밀 감독이 기존의 다중 스케일 감독보다 키포인트 로컬라이제이션 정확도를 향상시키는가?
RQ4이전 SOTA 방법들과 비교했을 때 MSPN의 COCO 및 MPII 성능은 어떠한가?
RQ5검출기 품질과 백본 선택에 대해 MSPN의 민감도는 어느 정도인가?

주요 결과

제안된 개선으로 MSPN은 기존의 멀티스테이지 방법을 크게 능가하고, 유사 용량의 단일 스테이지 기준선을 능가한다.
단일 스테이지 모듈로 ResNet 기반 GlobalNet을 사용하면 강력한 베이스라인 성능을 얻고, 멀티스테이지 설계와 결합했을 때 더 큰 이득을 가능케 한다.
단계 간 피처 어그리게이션은 측정 가능한 이득을 제공한다(예: COCO minival에서 MSPN이 74.2에서 74.5 AP로 향상).
거친-정밀 감독은 로컬라이제이션 정확도를 크게 향상시키고 설정 전반에서 MSPN을 눈에 띄는 차이로 개선한다; 비슷한 FLOPs 예산에서 Hourglass에도 이점이 있다.
MSPN은 COCO test-dev에서 최첨단 결과를 달성한다(단일 모델 76.1 AP; 외부 데이터 포함 77.1 AP; 앙상블 78.1 AP) 및 MPII에서 (92.6 PCKh@0.5).
탐지기 품질은 MSPN 성능에 미치는 영향이 제한적이며, 이득은 주로 설계적 아키텍처 설계에서 비롯된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.