QUICK REVIEW

[논문 리뷰] 3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang|arXiv (Cornell University)|2018. 03. 26.

Human Pose and Action Recognition참고 문헌 53인용 수 34

한 줄 요약

이 논문은 3D 인간 자세의 구조를 완전히 애너테이션된 랩 데이터셋에서 2D 자세 애너테이션만을 사용하여 실외 환경의 이미지로 전이하는 적대적 학습 프레임워크를 제안한다. 상대적 관절 위치와 거리의 기하학적 기술자와 다중 소스 판별자를 도입함으로써, 해부학적으로 타당한 3D 자세를 강제하여 일반화 능력을 크게 향상시키고, MPII 및 MPI-INF-3DHP 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Recently, remarkable advances have been achieved in 3D human pose estimation from monocular images because of the powerful Deep Convolutional Neural Networks (DCNNs). Despite their success on large-scale datasets collected in the constrained lab environment, it is difficult to obtain the 3D pose annotations for in-the-wild images. Therefore, 3D human pose estimation in the wild is still a challenge. In this paper, we propose an adversarial learning framework, which distills the 3D human pose structures learned from the fully annotated dataset to in-the-wild images with only 2D pose annotations. Instead of defining hard-coded rules to constrain the pose estimation results, we design a novel multi-source discriminator to distinguish the predicted 3D poses from the ground-truth, which helps to enforce the pose estimator to generate anthropometrically valid poses even with images in the wild. We also observe that a carefully designed information source for the discriminator is essential to boost the performance. Thus, we design a geometric descriptor, which computes the pairwise relative locations and distances between body joints, as a new information source for the discriminator. The efficacy of our adversarial learning framework with the new geometric descriptor has been demonstrated through extensive experiments on widely used public benchmarks. Our approach significantly improves the performance compared with previous state-of-the-art approaches.

연구 동기 및 목표

3D 애너테이션이 극히 적은 실외 환경에서 3D 인간 자세 추정 문제를 해결하기 위해.
실외 데이터셋의 2D 자세 애너테이션만을 사용하여 3D 자세 추정기의 약한 지도 학습을 가능하게 하기 위해.
제약 조건이 있는 랩 데이터와 실제 이미지 간의 도메인 전이에 대한 일반화 능력을 향상시키기 위해.
경직된 하드 코딩된 자세 제약 조건을 대체하여 체형학적 타당성을 강제하는 학습된 판별자로 전환하기 위해.

제안 방법

모노클러 이미지에서 입력 이미지 특징을 조건으로 하여 3D 자세를 예측하는 조건부 생성자(3D 자세 추정기)를 학습한다.
이미지 입력과 관절 간 상대적 이동 및 거리의 기하학적 기술자라는 두 가지 정보 소스를 사용하여, 진짜 3D 자세와 예측된 자세를 구분하는 다중 소스 판별자를 설계한다.
기하학적 기술자는 신체 관절 간의 상대적 3D 위치와 거리를 인코딩하여 인간 신체의 관절 운동과 대칭성을 모델링한다.
종단 간 적대적 학습을 수행함으로써 생성자는 3D 애너테이션이 없는 실외 데이터에서도 진짜 자세와 구분이 가지 않는 자세를 학습하게 된다.
판별자는 이미지-자세의 일치성과 해부학적 제약 조건을 바탕으로 타당하지 않은 자세를 탐지함으로써 생성자의 출력 품질을 향상시킨다.

실험 결과

연구 질문

RQ13D 애너테이션이 없는 실외 이미지로 완전히 애너테이션된 랩 데이터셋의 3D 자세 구조를 효과적으로 전이할 수 있는가?
RQ2관절 간 관계의 기하학적 기술자를 통합함으로써 판별자의 해부학적으로 타당한 자세를 강제하는 능력은 어떻게 향상되는가?
RQ32D 자세 모듈과 깊이 회귀기의 종단 간 적대적 학습은 고정된 2D 특징보다 더 나은 3D 자세 추정 성능을 내는가?
RQ4제안된 방법이 MPI-INF-3DHP와 같은 새로운 데이터셋으로 일반화되는 정도는 어느 정도인가?
RQ5판별자는 왼쪽-오른쪽 뒤바꿈, 가림, 비자연스러운 사지 굽힘과 같은 일반적인 실패 케이스를 식별하고 수정할 수 있는가?

주요 결과

제안된 방법은 MPII 검증 세트에서 PCKh@0.5 점수 88.6을 기록하여 베이스라인 대비 1.0점 향상되었다.
MPI-INF-3DHP 벤치마크에서 PCK 점수 69.0과 AUC 32.0을 달성하여, 베이스라인(기준: PCK 64.7, AUC 31.7)보다 유의미하게 향상되었다.
종단 간 적대적 학습은 사전 훈련된 베이스라인 대비 2D 자세 추정 오차를 8.1% 감소시켰다.
정성적 비교를 통해 모델은 가림, 혼잡한 배경, 대칭적 오류 예측에 대해 향상된 내성성을 보였다.
기하학적 기술자를 판별자의 입력 소스로 사용함으로써 수렴 속도가 빨라지고 일반화 능력이 향상되었으며, 이는 학습 및 검증 곡선을 통해 입증되었다.
판별자는 비자연스럽게 굽은 사지나 비대칭적인 사지 구성과 같은 해부학적으로 타당하지 않은 자세를 성공적으로 식별하고 수정하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.