Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation

Hao-Shu Fang, Yuanlu Xu|arXiv (Cornell University)|2017. 10. 17.
Human Pose and Action Recognition참고 문헌 34인용 수 32
한 줄 요약

이 논문은 3D 인간 자세 추정을 향상시키기 위해 체계적 양방향 RNN에 인간 신체 구성 지식—운동역학, 대칭성, 운동 조율—을 인코딩하는 딥 문법 네트워크를 제안한다. 자세 문법과 자세 샘플러 시뮬레이터를 통한 데이터 증강을 통합함으로써, 교차 뷰 벤치마크에서 강력한 일반화 능력과 함께 최신 기술 수준(SOTA) 성능을 달성하며, 과도한 카메라 시야 변화 조건에서 최대 12mm의 평균 오차 향상을 기록한다.

ABSTRACT

In this paper, we propose a pose grammar to tackle the problem of 3D human pose estimation. Our model directly takes 2D pose as input and learns a generalized 2D-3D mapping function. The proposed model consists of a base network which efficiently captures pose-aligned features and a hierarchy of Bi-directional RNNs (BRNN) on the top to explicitly incorporate a set of knowledge regarding human body configuration (i.e., kinematics, symmetry, motor coordination). The proposed model thus enforces high-level constraints over human poses. In learning, we develop a pose sample simulator to augment training samples in virtual camera views, which further improves our model generalizability. We validate our method on public 3D human pose benchmarks and propose a new evaluation protocol working on cross-view setting to verify the generalization capability of different methods. We empirically observe that most state-of-the-art methods encounter difficulty under such setting while our method can well handle such challenges.

연구 동기 및 목표

  • 미리 보지 못한 카메라 시야에서 2D에서 3D 자세 추정 방법의 낮은 일반화 능력을 해결하기 위해.
  • 딥 러닝 모델에 고수준의 인간 신체 구성 지식—운동역학, 대칭성, 운동 조율—을 명시적으로 인코딩하기 위해.
  • 자세 샘플러 시뮬레이터를 활용한 새로운 데이터 증강 기법을 통해 모델의 강건성과 일반화 능력을 향상시키기 위해.
  • 기존 방법들이 과적합되는 것을 드러내는 새로운 교차 뷰 평가 프로토콜 하에서 제안된 방법의 효과성을 검증하기 위해.
  • 문법 기반 모델링과 합성 데이터 증강 기법이 종래의 엔드 투 엔드 이미지 기반 방법과의 성능 격차를 줄일 수 있는지 확인하기 위해.

제안 방법

  • 기본 CNN을 사용해 2D 관절 검출 결과에서 자세에 맞춰진 특징을 추출한다.
  • 장기적 의존성과 인간 신체 구성에서 유도되는 고수준 제약 조건을 모델링하기 위해 계층적 양방향 RNN(BRNN)을 스택한다.
  • 자세 문법은 운동사슬(부모-자식 관절 관계), 신체 부위 간 대칭성, 운동 조율 패턴을 인코딩한다.
  • 자세 샘플러 시뮬레이터는 3D 자세를 가상 카메라 뷰로 투영하여 합성 2D-3D 자세 쌍을 생성함으로써 훈련 데이터의 다양성을 확장한다.
  • 문법 구성 요소와 데이터 증강을 함께 최적화하여 일반화를 향상시키기 위해 백프로파게이션을 통한 엔드 투 엔드 훈련을 수행한다.
  • 기하학적 원칙을 따르므로 임의의 노이즈 기반 데이터 증강 방식을 피하기 위해 현실적인 2D 투영을 보장한다.

실험 결과

연구 질문

  • RQ1인간 신체 구성 지식을 명시적으로 모델링하면 다양한 카메라 뷰 간 자세 추정의 일반화 능력이 향상되는가?
  • RQ2가상 카메라 뷰를 활용한 데이터 증강 기법이 모델의 강건성 향상과 과적합 감소에 뚜렷한 영향을 미치는가?
  • RQ3기존 방법들이 과적합되는 것을 드러내는 새로운 교차 뷰 평가 프로토콜 하에서 제안된 방법의 성능은 어떠한가?
  • RQ4문법 기반 딥 네트워크가 제로샷 카메라 일반화 상황에서 엔드 투 엔드 이미지 기반 방법을 능가할 수 있는가?
  • RQ5운동역학, 대칭성, 운동 조율 등의 개별 구성 요소가 성능 향상에 기여하는 정도는 어느 정도인가?

주요 결과

  • 새로운 교차 뷰 프로토콜 (#3) 하에서 제안된 방법은 Human3.6M에서 평균 오차 72.8mm를 기록하며, 두 번째로 우수한 방법보다 12mm 우수하다.
  • 기존 최신 기술 수준 방법들의 프로토콜 #3 하에서의 성능 저하는 17%에서 41%에 이르며, 특정 카메라 뷰에 과적합된 것으로 나타났다.
  • 제거 실험 결과, 운동역학 문법을 추가하면 오차가 1.6% 감소(75.1mm → 73.9mm)하고, 대칭성 추가로 추가로 0.4% 감소(73.9mm → 73.2mm)한다.
  • 자세 샘플러 시뮬레이터(PSS)를 사용하면 6개의 추가 가상 카메라 뷰를 도입했을 때 오차가 7% 감소(82.6mm → 76.7mm)하여 일반화 능력이 크게 향상된다.
  • 기존 방법에 PSS를 적용했을 때도 성능 향상이 나타나, PSS가 일반화 가능한 데이터 증강 기법임을 확인한다.
  • HumanEva-I와 MPII에서 대부분의 주제에서 최신 기술 수준 성능을 달성하며, 실외 환경에서도 잘 일반화됨을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.