QUICK REVIEW

[논문 리뷰] Single-Stage Multi-Person Pose Machines

Xuecheng Nie, Jianfeng Zhang|arXiv (Cornell University)|2019. 08. 24.

Human Pose and Action Recognition참고 문헌 35인용 수 26

한 줄 요약

이 논문은 루트 관절과 이동량을 통한 인스턴스 및 관절 위치 통합을 통해 단일 단계로 다수 인물의 2D/3D 자세 추정을 수행하는 Single-stage Multi-person Pose Machine(SPM)을 제안한다. 새로운 Structured Pose Representation(SPR)을 사용하여, 기존의 두 단계 모델보다 8배 빠른 추론 속도를 달성하면서도 MPII, COCO, CMU Panoptic 벤치마크에서 경쟁력 있는 정확도를 유지하여 성능을 훼손하지 않은 채 뛰어난 효율성을 입증한다.

ABSTRACT

Multi-person pose estimation is a challenging problem. Existing methods are mostly two-stage based--one stage for proposal generation and the other for allocating poses to corresponding persons. However, such two-stage methods generally suffer low efficiency. In this work, we present the first single-stage model, Single-stage multi-person Pose Machine (SPM), to simplify the pipeline and lift the efficiency for multi-person pose estimation. To achieve this, we propose a novel Structured Pose Representation (SPR) that unifies person instance and body joint position representations. Based on SPR, we develop the SPM model that can directly predict structured poses for multiple persons in a single stage, and thus offer a more compact pipeline and attractive efficiency advantage over two-stage methods. In particular, SPR introduces the root joints to indicate different person instances and human body joint positions are encoded into their displacements w.r.t. the roots. To better predict long-range displacements for some joints, SPR is further extended to hierarchical representations. Based on SPR, SPM can efficiently perform multi-person poses estimation by simultaneously predicting root joints (location of instances) and body joint displacements via CNNs. Moreover, to demonstrate the generality of SPM, we also apply it to multi-person 3D pose estimation. Comprehensive experiments on benchmarks MPII, extended PASCAL-Person-Part, MSCOCO and CMU Panoptic clearly demonstrate the state-of-the-art efficiency of SPM for multi-person 2D/3D pose estimation, together with outstanding accuracy.

연구 동기 및 목표

두 단계의 다수 인물 자세 추정 방법이 인스턴스 검출과 관절 회귀 단계를 별도로 수행함으로써 발생하는 비효율성을 해결하기 위해.
사람 인스턴스 위치 및 신체 관절 예측을 하나의 종단 간(end-to-end) 파이프라인으로 통합하여 계산 중복을 줄이기 위해.
루트 관절을 기준으로 관절 위치를 상대적으로 표현함으로써 단일 단계 추론을 가능하게 하는 새로운 자세 표현 방식을 개발하기 위해.
관절의 장거리 이동량을 더 잘 모델링하기 위해 계층적 형태로 표현을 확장하기 위해.
단일 RGB 이미지에서 2D 및 3D 다수 인물 자세 추정에 대해 높은 효율성을 보이는 일반화 능력을 입증하기 위해.

제안 방법

각 사람 인스턴스를 루트 관절로 표현하고, 모든 신체 관절은 2D 또는 3D 이동량으로 루트 관절에 대해 상대적으로 인코딩되는 Structured Pose Representation(SPR)를 제안한다.
운동학 사슬을 따라 장거리 이동량을 연속적인 단거리 이동량으로 분해함으로써 정확도를 향상시키는 계층적 SPR 버전을 설계한다.
특히 Hourglass 네트워크에서 유도된 CNN 기반 아키텍처를 사용하여, 단일 순방향 전파에서 루트 관절 위치와 이동량 벡터를 동시에 회귀하는 SPM 모델을 구현한다.
2D 및 3D 자세 추정을 위한 루트 관절 회귀와 이동량 예측를 결합한 다중 작업 손실을 사용하여 모델을 종단 간으로 훈련한다.
CMU Panoptic의 3D 관절 앵커파일을 활용하여 이동량 표현을 3D 공간으로 확장하고, 3D 자세 추정에 적합한 모델을 구현한다.
MPII, PASCAL-Person-Part, COCO, CMU Panoptic 데이터셋에서 데이터 증강 및 표준 훈련 프로토콜을 적용하여 모델의 강건성과 일반화 능력을 확보한다.

실험 결과

연구 질문

RQ1두 단계 모델에 비해 뚜렷한 추론 속도 향상을 이룰 수 있는 동시에 다수 인물 2D 자세 추정에서 경쟁력 있는 정확도를 달성할 수 있는 단일 단계 딥 러닝 모델은 가능한가?
RQ2루트 관절을 기준으로 관절 위치를 상대적으로 표현하는 구조적 자세 표현 방식이 종단 간 단일 단계 추론을 가능하게 하는 데 얼마나 효과적인가?
RQ3계층적 SPR은 모델 복잡도를 증가시키지 않으면서도 장거리 관절 이동량을 더 잘 모델링할 수 있는가?
RQ4제안된 SPM 프레임워크는 단일 RGB 이미지에서 3D 다수 인물 자세 추정에 효과적으로 일반화되는가?
RQ5최고 수준의 두 단계 모델과 비교했을 때, 단일 단계 접근법을 사용할 경우 속도와 정확도 사이의 상충 관계는 어떠한가?

주요 결과

확장된 PASCAL-Person-Part 데이터셋에서 SPM은 46.1% mAP를 기록하여 이 벤치마크의 새로운 최고 성능을 달성했다.
MSCOCO test-dev 세트에서 SPM은 0.669 AP를 기록하여 SOTA인 0.687에 약간 못 미치지만, 이미지당 0.058초의 8배 빠른 추론 속도(0.058s per image)를 확보했다.
CMU Panoptic 데이터셋에서 다수 인물 3D 자세 추정에 대해 SPM은 77.8% 3D-PCK를 기록하여 대규모 3D 벤치마크에서 뛰어난 성능을 입증했다.
CMU Panoptic 데이터셋에서 SPM은 약 20 FPS로 실행되어 단일 RGB 이미지에서의 3D 자세 추정에 있어 높은 효율성을 보였다.
정성적 결과는 겹침, 척도 변화, 다수 인물 간의 상호 간섭 상황에서도 강건함을 보이며, 모델의 도전적인 상황에서의 일반화 능력을 확인했다.
계층적 SPR 버전은 장거리 이동량을 효과적으로 모델링하여 계산 부담을 증가시키지 않으면서도 정확도 향상을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.