QUICK REVIEW

[논문 리뷰] MoCap-guided Data Augmentation for 3D Pose Estimation in the Wild

Grégory Rogez, Cordelia Schmid|arXiv (Cornell University)|2016. 07. 07.

Human Pose and Action Recognition참고 문헌 43인용 수 194

한 줄 요약

본 논문은 MoCap 데이터를 이용해 실제 2D 포즈 이미지에 3D 포즈 주석을 보강하는 이미지 기반 합성 엔진을 제시하고, 풀바디 3D 포즈 추정을 위한 K-way CNN 분류기를 학습시켜 제어된 환경에서 기존 방법을 능가하며 실제 환경 이미지에서도 가능성을 보인다.

ABSTRACT

This paper addresses the problem of 3D human pose estimation in the wild. A significant challenge is the lack of training data, i.e., 2D images of humans annotated with 3D poses. Such data is necessary to train state-of-the-art CNN architectures. Here, we propose a solution to generate a large set of photorealistic synthetic images of humans with 3D pose annotations. We introduce an image-based synthesis engine that artificially augments a dataset of real images with 2D human pose annotations using 3D Motion Capture (MoCap) data. Given a candidate 3D pose our algorithm selects for each joint an image whose 2D pose locally matches the projected 3D pose. The selected images are then combined to generate a new synthetic image by stitching local image patches in a kinematically constrained manner. The resulting images are used to train an end-to-end CNN for full-body 3D pose estimation. We cluster the training data into a large number of pose classes and tackle pose estimation as a K-way classification problem. Such an approach is viable only with large training sets such as ours. Our method outperforms the state of the art in terms of 3D pose estimation in controlled environments (Human3.6M) and shows promising results for in-the-wild images (LSP). This demonstrates that CNNs trained on artificial images generalize well to real images.

연구 동기 및 목표

wild에서의 3D 인간 포즈 추정에 필요한 대규모 학습 데이터의 부족 해결
MoCap 3D 포즈를 실제 2D 포즈 이미지와 융합하여 3D 주석이 있는 합성 학습 데이터를 생성하는 이미지 기반 합성 엔진 개발
엔드-투-엔드 CNN을 학습시켜 3D 포즈 추정을 K-way 포즈 분류 문제로 수행
합성+실데이터로 학습된 CNN이 실제 현장 이미지에 일반화되고 제어된 데이터셋에서 기존 방법을 능가함을 시연

제안 방법

MoCap 안내 모자이크 구성을 사용하여 실제 이미지에서 관절 중심 이미지 패치를 선택하고 이어붙여 합성 2D 포즈 이미지를 구성합니다
2D 포즈 간의 포즈 인지 거리 D_j를 정의하여 후보 3D 포즈와 가장 잘 정렬되는 관절별 매치를 찾습니다
픽셀 단위의 관절-소스 매칭에 대한 확률 맵을 구성하고 동역학적으로 제약된 모자이크를 적용하여 220x220의 합성 이미지를 렌더링합니다
새로운 포즈 인지 블렌딩 단계를 적용하여 이음매를 부드럽게 다듬고 몸 부분을 보존하여 인공물을 피합니다
3D 포즈를 K=5000개의 포즈 클래스로 클러스터링하고 이 클래스에 대한 확률 분포를 출력하는 AlexNet 유사 아키텍처 기반의 엔드-투-엔드 CNN 분류기를 학습시키고, 클래스 예측 이후 절대 위치 및 방향 정보를 평가합니다

실험 결과

연구 질문

RQ1MoCap 주도 이미지 합성이 3D 포즈 주석이 달린 현장 이미지로 사실적으로 합성될 수 있는가?
RQ2합성+실데이터로 학습한 CNN이 실데이터 단독 또는 합성 데이터 단독으로 학습한 경우보다 3D 포즈 추정에서 성능이 향상되는가?
RQ3포즈 클래스 수(K)와 합성 데이터 양이 현장 3D 포즈 성능에 미치는 영향은 무엇인가?
RQ4제안한 접근법이 제어 데이터(Human3.6M)와 현장 데이터(LSP)에서 최첨단 방법과 어떻게 비교되는가?

주요 결과

2D 소스	3D 소스	3D 포즈	H3.6M 절대 오차 (mm)	H3.6M 오차 (mm)	LSP 2D 오차 (픽셀)	LSP 3D 오차 (픽셀)
H3.6M	H3.6M	190,000	130.1	97.2	8.8	31.1
MPII+LSP	H3.6M	190,000	248.9	122.1	17.3	20.7
MPII+LSP	CMU	190,000	320.0	150.6	19.7	22.4
MPII+LSP	CMU	2,000,000	216.5	138.0	11.2	13.8

합성 데이터만으로도 실데이터만으로 학습한 것보다 상당한 이점을 제공하며, 합성+실데이터를 결합하면 최상의 결과를 얻는다.
Human3.6M(P1 프로토콜)에서 합성 데이터로 학습된 회귀기가 Abs Error 101.9 mm, 3D Pose Error 97.2 mm를 달성하고, 합성 데이터로 학습된 분류기가 Abs Error 97.2 mm, 88.1 mm의 오차를 보이며, 합성+실데이터의 조합은 분류기에 대해 Abs Error 125.5 mm, 88.1 mm의 오차를 보인다(절대 정렬 기준).
P2 프로토콜에서 합성+실데이터를 사용한 분류기가 3D 오차(절대값) 87.3 mm를 달성하는 반면 회귀기는 121.2 mm이다.
LSP에서 MPII+LSP를 CMU 데이터 및 200만 개의 합성 이미지와 함께 사용하면 2D 포즈 오차가 11.2 픽셀, 3D 포즈 오차가 138.0 mm로 감소하며, H3.6M의 2D 오차는 216.5 Ab? 3D 소스 조합의 Abs 216.5로 개선되고, P2 유사 설정에서 138.0 mm의 3D 오차가 나타나고, 이 방법은 2D 포즈 추정 기준선과도 경쟁력이 있다.
VGG-16 변형을 미세 조정하면 AlexNet 기반 설정 대비 2D 포즈 오차를 2.3 픽셀 더 감소시킨다.
정성적 결과는 올바른 3D 포즈 추정을 보여주며, 보지 못한 포즈나 좌우/앞뒤 구분으로 인한 실패 사례가 일부 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.