QUICK REVIEW

[논문 리뷰] Unite the People: Closing the Loop Between 3D and 2D Human Representations

Christoph Lassner, Javier Romero|arXiv (Cornell University)|2017. 01. 10.

Human Pose and Action Recognition참고 문헌 44인용 수 46

한 줄 요약

이 논문은 2D와 3D 인간 표현 간의 피드백 루프를 구축하기 위해, 2D 관절 위치 정보에서 고품질의 3D 신체 모델 피팅을 생성하는 반자동 파이프라인을 사용하는 자기 향상 프레임워크를 제안한다. 초기 데이터셋(UP-3D)에서 91개의 관절 위치를 추정하는 포즈 추정기 모델을 훈련시켜 3D 피팅 정확도를 향상시킴으로써, 10배 적은 훈련 데이터와 오브젝트 수준의 빠른 추론을 가능하게 하는 직접 회귀 모델을 통해 최신 기술 수준의 3D 인간 자세 및 형태 추정을 실현한다.

ABSTRACT

3D models provide a common ground for different representations of human bodies. In turn, robust 2D estimation has proven to be a powerful tool to obtain 3D fits "in-the- wild". However, depending on the level of detail, it can be hard to impossible to acquire labeled data for training 2D estimators on large scale. We propose a hybrid approach to this problem: with an extended version of the recently introduced SMPLify method, we obtain high quality 3D body model fits for multiple human pose datasets. Human annotators solely sort good and bad fits. This procedure leads to an initial dataset, UP-3D, with rich annotations. With a comprehensive set of experiments, we show how this data can be used to train discriminative models that produce results with an unprecedented level of detail: our models predict 31 segments and 91 landmark locations on the body. Using the 91 landmark pose estimator, we present state-of-the art results for 3D human pose and shape estimation using an order of magnitude less training data and without assumptions about gender or pose in the fitting procedure. We show that UP-3D can be enhanced with these improved fits to grow in quantity and quality, which makes the system deployable on large scale. The data, code and models are available for research purposes.

연구 동기 및 목표

강력한 2D 및 3D 인간 인식 모델을 훈련하기 위한 대규모이고 세밀한 3D 인간 신체 레이블이 부족한 문제를 해결하기 위해.
생성된 3D 피팅에 기반한 분류 모델을 훈련시켜 피팅 품질을 향상시키는 반복적이고 확장 가능한 프레임워크를 개발하기 위해.
최소한의 인간 레이블링 데이터로도 31개의 의미적 신체 부위와 91개의 랜드마크 위치를 포함한 고정밀 3D 인간 신체 추정을 가능하게 하기 위해.
저속도의 최적화 기반 피팅을 직접 회귀 모델로 대체함으로써 실시간 3D 자세 및 형태 예측을 실현하기 위해.
향상된 3D 피팅 결과를 활용해 훈련 데이터 풀을 확장하고, 지속적인 자기 향상이 가능한 시스템을 구현하기 위해.

제안 방법

2D 관절 위치 정보에서 고품질의 3D 신체 모델 피팅을 생성하기 위해 개선된 SMPLify 방법을 사용하며, 초기화 방식과 추가적인 피팅 목적함수를 향상시켰다.
인간 레이블러는 오직 좋은 및 나쁜 3D 피팅을 분류하기만 하여, 레이블링 작업의 부담을 크게 줄였고, 레이블 일관성을 유지했다.
최초의 데이터셋인 UP-3D는 다양한 데이터셋에서 31개의 신체 부위와 91개의 랜드마크 위치에 대한 풍부한 레이블을 포함한다.
2D 이미지에서 91개의 3D 신체 랜드마크를 예측하기 위해 딥 컨볼루션 신경망(ResNet-101)을 훈련시어 직접 3D 자세 추정을 가능하게 하였다.
랜덤 포레스트 기반의 직접 예측기 모델을 훈련시켜 2D 관절 위치에서 전체 3D 신체 모델 파라미터(자세 및 형태)를 추론하였으며, 밀리초 수준의 빠른 추론 성능을 달성하였다.
시스템은 향상된 91개의 랜드마크 예측 결과를 활용해 이전에 기각된 이미지에 대해 다시 3D 모델을 피팅함으로써 피드백 루프를 완성하였으며, 더 높은 품질의 레이블을 포함한 데이터셋을 확장하였다.

실험 결과

연구 질문

RQ1반자동 파이프라인은 고품질의 3D 인간 신체 피팅을 생성하면서도 인간의 레이블링 작업 부담을 크게 줄일 수 있는가?
RQ2작은 규모의 정제된 3D 피팅 데이터셋에서 훈련된 91개의 랜드마크 자세 추정기 모델이 최소한의 훈련 데이터로도 표준 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는가?
RQ3저속도의 최적화 기반 3D 피팅을 대체할 수 있는 직접 회귀 모델이 고정밀도를 유지하면서도 실시간 추론을 가능하게 할 수 있는가?
RQ4향상된 3D 피팅 품질은 대규모 데이터셋에서 사용 가능한 고품질 피팅 수를 측정 가능한 정도로 증가시키는가?
RQ5분류 모델과 생성 피팅 간의 피드백 루프가 반복적으로 데이터 품질과 양을 향상시킬 수 있는가?

주요 결과

91개의 랜드마크 자세 추정기 모델은 이전 방법 대비 1/10의 훈련 데이터만으로도 HumanEva 및 Human3.6M 데이터셋에서 최신 기술 수준의 성능을 달성하였다.
직접 회귀 모델은 0.378초 내로 전체 3D 신체 구성을 예측하였으며, 이는 주로 CNN이 계산 병목 현상이 되었다.
직접 예측기 모델은 SMPLify를 제외한 모든 최적화 기반 방법보다 뛰어난 성능을 보였다. (SMPLify는 수십 초가 소요됨)
LSP 데이터셋에서 향상된 3D 피팅 방법은 기존 14개의 참조 관절 위치만을 사용한 경우 대비 고품질 피팅 수를 9.3% 증가시켰다.
LSP 데이터셋의 사용 가능한 데이터는 피팅 수 기준으로 20% 증가하였으며, 308개의 이미지에서 개선된 세그멘테이션 F1 스코어를 기록하였다.
피드백 루프를 통해 반복적인 데이터 확장이 가능함을 입증: 91개의 랜드마크 모델에서 향상된 피팅 결과를 바탕으로 인간 레이블러가 추가로 185개의 이미지를 수용함으로써 지속적인 자기 향상이 가능함을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.