QUICK REVIEW

[논문 리뷰] Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation

Hao-Shu Fang, Yuanlu Xu|arXiv (Cornell University)|2017. 10. 17.

Human Pose and Action Recognition참고 문헌 34인용 수 32

한 줄 요약

이 논문은 3D 인간 자세 추정을 향상시키기 위해 체계적 양방향 RNN에 인간 신체 구성 지식—운동역학, 대칭성, 운동 조율—을 인코딩하는 딥 문법 네트워크를 제안한다. 자세 문법과 자세 샘플러 시뮬레이터를 통한 데이터 증강을 통합함으로써, 교차 뷰 벤치마크에서 강력한 일반화 능력과 함께 최신 기술 수준(SOTA) 성능을 달성하며, 과도한 카메라 시야 변화 조건에서 최대 12mm의 평균 오차 향상을 기록한다.

ABSTRACT

In this paper, we propose a pose grammar to tackle the problem of 3D human pose estimation. Our model directly takes 2D pose as input and learns a generalized 2D-3D mapping function. The proposed model consists of a base network which efficiently captures pose-aligned features and a hierarchy of Bi-directional RNNs (BRNN) on the top to explicitly incorporate a set of knowledge regarding human body configuration (i.e., kinematics, symmetry, motor coordination). The proposed model thus enforces high-level constraints over human poses. In learning, we develop a pose sample simulator to augment training samples in virtual camera views, which further improves our model generalizability. We validate our method on public 3D human pose benchmarks and propose a new evaluation protocol working on cross-view setting to verify the generalization capability of different methods. We empirically observe that most state-of-the-art methods encounter difficulty under such setting while our method can well handle such challenges.

연구 동기 및 목표

미리 보지 못한 카메라 시야에서 2D에서 3D 자세 추정 방법의 낮은 일반화 능력을 해결하기 위해.
딥 러닝 모델에 고수준의 인간 신체 구성 지식—운동역학, 대칭성, 운동 조율—을 명시적으로 인코딩하기 위해.
자세 샘플러 시뮬레이터를 활용한 새로운 데이터 증강 기법을 통해 모델의 강건성과 일반화 능력을 향상시키기 위해.
기존 방법들이 과적합되는 것을 드러내는 새로운 교차 뷰 평가 프로토콜 하에서 제안된 방법의 효과성을 검증하기 위해.
문법 기반 모델링과 합성 데이터 증강 기법이 종래의 엔드 투 엔드 이미지 기반 방법과의 성능 격차를 줄일 수 있는지 확인하기 위해.

제안 방법

기본 CNN을 사용해 2D 관절 검출 결과에서 자세에 맞춰진 특징을 추출한다.
장기적 의존성과 인간 신체 구성에서 유도되는 고수준 제약 조건을 모델링하기 위해 계층적 양방향 RNN(BRNN)을 스택한다.
자세 문법은 운동사슬(부모-자식 관절 관계), 신체 부위 간 대칭성, 운동 조율 패턴을 인코딩한다.
자세 샘플러 시뮬레이터는 3D 자세를 가상 카메라 뷰로 투영하여 합성 2D-3D 자세 쌍을 생성함으로써 훈련 데이터의 다양성을 확장한다.
문법 구성 요소와 데이터 증강을 함께 최적화하여 일반화를 향상시키기 위해 백프로파게이션을 통한 엔드 투 엔드 훈련을 수행한다.
기하학적 원칙을 따르므로 임의의 노이즈 기반 데이터 증강 방식을 피하기 위해 현실적인 2D 투영을 보장한다.

실험 결과

연구 질문

RQ1인간 신체 구성 지식을 명시적으로 모델링하면 다양한 카메라 뷰 간 자세 추정의 일반화 능력이 향상되는가?
RQ2가상 카메라 뷰를 활용한 데이터 증강 기법이 모델의 강건성 향상과 과적합 감소에 뚜렷한 영향을 미치는가?
RQ3기존 방법들이 과적합되는 것을 드러내는 새로운 교차 뷰 평가 프로토콜 하에서 제안된 방법의 성능은 어떠한가?
RQ4문법 기반 딥 네트워크가 제로샷 카메라 일반화 상황에서 엔드 투 엔드 이미지 기반 방법을 능가할 수 있는가?
RQ5운동역학, 대칭성, 운동 조율 등의 개별 구성 요소가 성능 향상에 기여하는 정도는 어느 정도인가?

주요 결과

새로운 교차 뷰 프로토콜 (#3) 하에서 제안된 방법은 Human3.6M에서 평균 오차 72.8mm를 기록하며, 두 번째로 우수한 방법보다 12mm 우수하다.
기존 최신 기술 수준 방법들의 프로토콜 #3 하에서의 성능 저하는 17%에서 41%에 이르며, 특정 카메라 뷰에 과적합된 것으로 나타났다.
제거 실험 결과, 운동역학 문법을 추가하면 오차가 1.6% 감소(75.1mm → 73.9mm)하고, 대칭성 추가로 추가로 0.4% 감소(73.9mm → 73.2mm)한다.
자세 샘플러 시뮬레이터(PSS)를 사용하면 6개의 추가 가상 카메라 뷰를 도입했을 때 오차가 7% 감소(82.6mm → 76.7mm)하여 일반화 능력이 크게 향상된다.
기존 방법에 PSS를 적용했을 때도 성능 향상이 나타나, PSS가 일반화 가능한 데이터 증강 기법임을 확인한다.
HumanEva-I와 MPII에서 대부분의 주제에서 최신 기술 수준 성능을 달성하며, 실외 환경에서도 잘 일반화됨을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.