QUICK REVIEW

[논문 리뷰] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation

Hanbyul Joo, Natalia Neverova|arXiv (Cornell University)|2020. 04. 07.

Human Pose and Action Recognition참고 문헌 69인용 수 51

한 줄 요약

이 논문은 COCO와 MPII와 같은 2D 키포인트 데이터셋에서 3D 파arametric 바디 모델과 데이터 기반 자세 사전을 활용하여 깊이 모호성을 해결함으로써 정확한 3D 인간 자세 애너테이션을 생성하는 Exemplar Fine-Tuning (EFT) 방법을 소개한다. 이로 인해 생성된 대규모 실외 3D 데이터셋은 도전적인 실외 및 인터넷 영상에서도 최신 기술 수준의 3D 인간 자세 추정을 가능하게 한다.

ABSTRACT

We propose a method for building large collections of human poses with full 3D annotations captured `in the wild', for which specialized capture equipment cannot be used. We start with a dataset with 2D keypoint annotations such as COCO and MPII and generates corresponding 3D poses. This is done via Exemplar Fine-Tuning (EFT), a new method to fit a 3D parametric model to 2D keypoints. EFT is accurate and can exploit a data-driven pose prior to resolve the depth reconstruction ambiguity that comes from using only 2D observations as input. We use EFT to augment these large in-the-wild datasets with plausible and accurate 3D pose annotations. We then use this data to strongly supervise a 3D pose regression network, achieving state-of-the-art results in standard benchmarks, including the ones collected outdoor. This network also achieves unprecedented 3D pose estimation quality on extremely challenging Internet videos.

연구 동기 및 목표

특수 촬영 장비의 비현실성으로 인해 대규모로 완전히 3D 애너테이션된 실외 인간 자세 데이터셋이 부족한 문제를 해결하기 위해.
2D 키포인트 관측에서만 이루어지는 자세 복원 시 내재된 깊이 모호성을 해결하기 위해.
제약 없는 실제 영상 환경에서 타당하고 정확한 3D 자세 애너테이션을 생성하는 방법을 개발하기 위해.
실외 환경 및 인터넷 영상과 같은 도전적인 비제어 환경에서의 3D 인간 자세 추정 성능을 향상시키기 위해.
2D 감독만으로도 현실감 있고 정확한 3D 자세 복원을 향상시키기 위해 데이터 기반 사전을 활용하기 위해.

제안 방법

2D 키포인트 검출에 3D 파arametric 바디 모델(예: SMPL)을 피팅하기 위한 최신 기술 기반 최적화 방법으로 Exemplar Fine-Tuning (EFT)을 제안한다.
기존 3D 인간 자세 데이터로부터 학습된 데이터 기반 자세 사전을 통합하여 3D 복원을 안내하고 깊이 모호성을 해결한다.
2D 키포인트 재투영 오차와 자세 사전 정규화를 조합한 미분 가능한 손실 함수를 최소화함으로써 3D 관절 위치 및 신체 형태 파라미터를 최적화한다.
기존 2D 키포인트 데이터셋(COCO, MPII 등)에 대규모로 EFT를 적용하여 3D 애너테이션된 실외 이미지의 대규모 컬렉션을 생성한다.
생성된 합성 3D 애너테이션 데이터셋을 활용해 3D 자세 회귀 네트워크를 학습시켜 제약 없는 환경으로의 일반화 성능을 향상시킨다.
최종 모델은 표준 벤치마크(실외 및 실외 데이터셋 포함)에서 훈련 및 평가되어 최신 기술 수준의 성능을 달성한다.

실험 결과

연구 질문

RQ1특수 3D 촬영 장비 없이도 데이터 기반 자세 사전이 2D에서 3D 자세 복원 시 깊이 모호성을 효과적으로 해결할 수 있는가?
RQ2Exemplar Fine-Tuning은 제약 없는 실제 환경에서 2D 키포인트 애너테이션으로부터 고품질의 현실적인 3D 인간 자세를 생성할 수 있는가?
RQ3EFT로 생성된 3D 데이터로의 퍼포먼스 향상은 도전적인 실외 및 실외 벤치마크에서 3D 자세 추정 성능에 어느 정도 기여하는가?
RQ4EFT로 애너테이션된 데이터로 훈련된 3D 회귀 네트워크는 복잡한 자세와 가림을 포함한 매우 도전적인 인터넷 영상으로 일반화 가능한가?
RQ5EFT로 생성된 3D 애너테이션의 품질은 실제 3D 애너테이션과 비교해 후속 3D 자세 추정 정확도 측면에서 어느 정도인가?

주요 결과

Exemplar Fine-Tuning (EFT)는 제약 없는 실외 환경에서 2D 키포인트 검출로부터 정확하고 타당한 3D 인간 자세를 성공적으로 생성한다.
EFT로 생성된 3D 데이터셋은 3D 자세 회귀 네트워크에 강력한 지도를 제공하여 실외 및 실외 데이터셋을 포함한 표준 벤치마크에서 최신 기술 수준의 성능을 달성한다.
매우 도전적인 인터넷 영상에서 기존의 기술 수준을 뛰어넘는 3D 자세 추정 정확도를 달성하며, 복잡한 장면과 가림에 대한 강건성을 입증한다.
EFT에 데이터 기반 자세 사전을 통합함으로써 2D 관측에서 내재된 모호성을 효과적으로 해결하여 깊이 추정 정확도를 크게 향상시킨다.
EFT로부터 생성된 3D 애너테이션 데이터셋은 대규모이며, 제어된 실험실 환경을 초월한 깊이 신경망의 일반화를 위한 훈련에 적합하다.
최종 3D 자세 추정 모델은 기존 방법보다 표준 평가 프로토콜에서 더 뛰어난 성능을 보이며, 특히 실제 세계 및 제약 없는 환경에서 두각을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.