Skip to main content
QUICK REVIEW

[논문 리뷰] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation

Hanbyul Joo, Natalia Neverova|arXiv (Cornell University)|2020. 04. 07.
Human Pose and Action Recognition참고 문헌 69인용 수 51
한 줄 요약

이 논문은 COCO와 MPII와 같은 2D 키포인트 데이터셋에서 3D 파arametric 바디 모델과 데이터 기반 자세 사전을 활용하여 깊이 모호성을 해결함으로써 정확한 3D 인간 자세 애너테이션을 생성하는 Exemplar Fine-Tuning (EFT) 방법을 소개한다. 이로 인해 생성된 대규모 실외 3D 데이터셋은 도전적인 실외 및 인터넷 영상에서도 최신 기술 수준의 3D 인간 자세 추정을 가능하게 한다.

ABSTRACT

We propose a method for building large collections of human poses with full 3D annotations captured `in the wild', for which specialized capture equipment cannot be used. We start with a dataset with 2D keypoint annotations such as COCO and MPII and generates corresponding 3D poses. This is done via Exemplar Fine-Tuning (EFT), a new method to fit a 3D parametric model to 2D keypoints. EFT is accurate and can exploit a data-driven pose prior to resolve the depth reconstruction ambiguity that comes from using only 2D observations as input. We use EFT to augment these large in-the-wild datasets with plausible and accurate 3D pose annotations. We then use this data to strongly supervise a 3D pose regression network, achieving state-of-the-art results in standard benchmarks, including the ones collected outdoor. This network also achieves unprecedented 3D pose estimation quality on extremely challenging Internet videos.

연구 동기 및 목표

  • 특수 촬영 장비의 비현실성으로 인해 대규모로 완전히 3D 애너테이션된 실외 인간 자세 데이터셋이 부족한 문제를 해결하기 위해.
  • 2D 키포인트 관측에서만 이루어지는 자세 복원 시 내재된 깊이 모호성을 해결하기 위해.
  • 제약 없는 실제 영상 환경에서 타당하고 정확한 3D 자세 애너테이션을 생성하는 방법을 개발하기 위해.
  • 실외 환경 및 인터넷 영상과 같은 도전적인 비제어 환경에서의 3D 인간 자세 추정 성능을 향상시키기 위해.
  • 2D 감독만으로도 현실감 있고 정확한 3D 자세 복원을 향상시키기 위해 데이터 기반 사전을 활용하기 위해.

제안 방법

  • 2D 키포인트 검출에 3D 파arametric 바디 모델(예: SMPL)을 피팅하기 위한 최신 기술 기반 최적화 방법으로 Exemplar Fine-Tuning (EFT)을 제안한다.
  • 기존 3D 인간 자세 데이터로부터 학습된 데이터 기반 자세 사전을 통합하여 3D 복원을 안내하고 깊이 모호성을 해결한다.
  • 2D 키포인트 재투영 오차와 자세 사전 정규화를 조합한 미분 가능한 손실 함수를 최소화함으로써 3D 관절 위치 및 신체 형태 파라미터를 최적화한다.
  • 기존 2D 키포인트 데이터셋(COCO, MPII 등)에 대규모로 EFT를 적용하여 3D 애너테이션된 실외 이미지의 대규모 컬렉션을 생성한다.
  • 생성된 합성 3D 애너테이션 데이터셋을 활용해 3D 자세 회귀 네트워크를 학습시켜 제약 없는 환경으로의 일반화 성능을 향상시킨다.
  • 최종 모델은 표준 벤치마크(실외 및 실외 데이터셋 포함)에서 훈련 및 평가되어 최신 기술 수준의 성능을 달성한다.

실험 결과

연구 질문

  • RQ1특수 3D 촬영 장비 없이도 데이터 기반 자세 사전이 2D에서 3D 자세 복원 시 깊이 모호성을 효과적으로 해결할 수 있는가?
  • RQ2Exemplar Fine-Tuning은 제약 없는 실제 환경에서 2D 키포인트 애너테이션으로부터 고품질의 현실적인 3D 인간 자세를 생성할 수 있는가?
  • RQ3EFT로 생성된 3D 데이터로의 퍼포먼스 향상은 도전적인 실외 및 실외 벤치마크에서 3D 자세 추정 성능에 어느 정도 기여하는가?
  • RQ4EFT로 애너테이션된 데이터로 훈련된 3D 회귀 네트워크는 복잡한 자세와 가림을 포함한 매우 도전적인 인터넷 영상으로 일반화 가능한가?
  • RQ5EFT로 생성된 3D 애너테이션의 품질은 실제 3D 애너테이션과 비교해 후속 3D 자세 추정 정확도 측면에서 어느 정도인가?

주요 결과

  • Exemplar Fine-Tuning (EFT)는 제약 없는 실외 환경에서 2D 키포인트 검출로부터 정확하고 타당한 3D 인간 자세를 성공적으로 생성한다.
  • EFT로 생성된 3D 데이터셋은 3D 자세 회귀 네트워크에 강력한 지도를 제공하여 실외 및 실외 데이터셋을 포함한 표준 벤치마크에서 최신 기술 수준의 성능을 달성한다.
  • 매우 도전적인 인터넷 영상에서 기존의 기술 수준을 뛰어넘는 3D 자세 추정 정확도를 달성하며, 복잡한 장면과 가림에 대한 강건성을 입증한다.
  • EFT에 데이터 기반 자세 사전을 통합함으로써 2D 관측에서 내재된 모호성을 효과적으로 해결하여 깊이 추정 정확도를 크게 향상시킨다.
  • EFT로부터 생성된 3D 애너테이션 데이터셋은 대규모이며, 제어된 실험실 환경을 초월한 깊이 신경망의 일반화를 위한 훈련에 적합하다.
  • 최종 3D 자세 추정 모델은 기존 방법보다 표준 평가 프로토콜에서 더 뛰어난 성능을 보이며, 특히 실제 세계 및 제약 없는 환경에서 두각을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.