QUICK REVIEW

[논문 리뷰] Synthesizing Training Images for Boosting Human 3D Pose Estimation

Wenzheng Chen, Huan Wang|arXiv (Cornell University)|2016. 04. 10.

Human Pose and Action Recognition참고 문헌 55인용 수 66

한 줄 요약

이 논문은 깊이 신경망을 사용한 3차원 인간 자세 추정을 향상시키기 위해 3차원 자세 애너테이션이 있는 다양하고 고성능의 훈련 이미지를 자동으로 생성하는 완전 자동화되고 확장 가능한 방법을 제안한다. 풍부한 자세 공간을 샘플링하고 실제 이미지에서 실감 나는 옷 입힘 무늬를 전이함으로써 저자들은 500만 장의 합성 이미지를 생성하였으며, 도메인 적응 기법을 결합함으로써 벤치마크 데이터셋에서 실제 데이터로 훈련된 모델들을 능가하는 성능을 달성한다.

ABSTRACT

Human 3D pose estimation from a single image is a challenging task with numerous applications. Convolutional Neural Networks (CNNs) have recently achieved superior performance on the task of 2D pose estimation from a single image, by training on images with 2D annotations collected by crowd sourcing. This suggests that similar success could be achieved for direct estimation of 3D poses. However, 3D poses are much harder to annotate, and the lack of suitable annotated training images hinders attempts towards end-to-end solutions. To address this issue, we opt to automatically synthesize training images with ground truth pose annotations. Our work is a systematic study along this road. We find that pose space coverage and texture diversity are the key ingredients for the effectiveness of synthetic training data. We present a fully automatic, scalable approach that samples the human pose space for guiding the synthesis procedure and extracts clothing textures from real images. Furthermore, we explore domain adaptation for bridging the gap between our synthetic training images and real testing photos. We demonstrate that CNNs trained with our synthetic images out-perform those trained with real photos on 3D pose estimation tasks.

연구 동기 및 목표

3차원 애너테이션이 있는 훈련 데이터의 부족 문제를 해결하기 위해 인간 애너테이션을 통한 수집이 매우 비용이 많이 들기 때문에 이를 해결하고자 한다.
모션 캡처(MoCap) 데이터의 한계를 극복하기 위해 옷과 배경 변화와 같은 외관 다양성이 부족하기 때문에 이를 해결하고자 한다.
정확한 3차원 자세 애너테이션이나 실감 나는 무늬를 갖춘 합성 이미지를 생성하기 위한 확장 가능하고 자동화된 파이프라인을 개발하고자 한다.
합성 훈련 데이터와 실제 테스트 이미지 사이의 도메인 갭을 극복하기 위해 새로운 도메인 적응 전략을 개발하고자 한다.
효과적인 도메인 적응 기법을 결합할 경우 합성 데이터가 실제 데이터로 훈련된 모델보다 3차원 인간 자세 추정에서 더 뛰어난 성능을 낼 수 있음을 입증하고자 한다.

제안 방법

모션 캡처(MoCap)와 2D-애너테이션된 3D 자세 데이터로부터 통계적 인간 신체 모델을 구축하여 다양한 신체 유형과 자세를 체계적으로 샘플링할 수 있도록 한다.
주로 세부 무늬(주름 등)를 유지하는 데이터 기반 접근 방식을 사용하여 실제 제품 이미지에서 3차원 인간 모델로 옷 입힘 무늬를 자동으로 전이한다.
유연하고 무늬가 있는 인간 모델을 실제 배경과 다양한 조명 조건과 결합하여 합성 이미지를 렌더링한다.
다양한 자세와 무늬 변화를 포함하는 5,099,405장의 합성 이미지로 구성된 대규모 데이터셋을 생성한다.
합성 이미지 도메인과 실제 이미지 도메인의 특징을 정렬하기 위해 새로운 도메인 적응 네트워크를 설계한다. 이는 실제 테스트 데이터에 대한 일반화 성능을 향상시킨다.
이 방법은 완전히 자동화되어 최소한의 사용자 입력을 요구하며, 다양한 훈련 데이터의 확장 가능한 생성을 지원한다.

실험 결과

연구 질문

RQ1풍부한 자세와 무늬 변화를 갖춘 합성 훈련 데이터가 3차원 인간 자세 추정에서 실제 데이터로 훈련된 모델보다 성능이 뛰어나게 될 수 있는가?
RQ2자세 공간 커버리지와 무늬 다양성은 합성 훈련 데이터의 효과성에 어떤 역할을 하는가?
RQ33차원 자세 추정에서 합성 이미지와 실제 이미지 사이의 도메인 갭을 효과적으로 다리기 위해 도메인 적응을 어떻게 적용할 수 있는가?
RQ4완전히 자동화된 파이프라인이 실제 세계 테스트 데이터에 잘 일반화되는 고성능 합성 이미지를 생성할 수 있는가?
RQ5기존의 데이터셋(예: Human3.6M)과 비교했을 때 합성 데이터의 크기와 다양성은 모델의 일반화 성능 향상에 얼마나 기여하는가?

주요 결과

저자들이 제안한 합성 데이터로 훈련된 CNN 모델은 여러 벤치마크에서 실제 이미지로 훈련된 모델, 심지어 최신 기술 모델들보다도 뛰어난 성능을 보였다.
합성 데이터 크기가 증가할수록 도메인 적응 네트워크의 성능 향상이 뚜렷하게 나타나 강력한 확장성 잠재력을 보였다.
합성 과정에서 사용된 고유한 옷 무늬의 수가 모델 성능에 명백한 영향을 미치며, 이는 무늬 다양성이 중요하다는 것을 확인시켰다.
합성 데이터는 일반화 성능에서 Human3.6M를 능가했으며, 이는 합성 데이터로 테스트했을 때 성능 격차가 더 크게 나타나 더 높은 변동성과 더 넓은 커버리지를 의미한다.
도메인 적응 전략은 도메인 시프트를 효과적으로 줄여, 제한된 실제 데이터가 존재하는 상황에서도 합성 데이터의 활용도를 높였다.
이 방법을 통해 더 풍부한 데이터셋인 Human3D+를 새롭게 제작할 수 있었으며, 이는 코드 및 모델과 함께 공개될 예정이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.