QUICK REVIEW

[논문 리뷰] General Automatic Human Shape and Motion Capture Using Volumetric Contour Cues

Helge Rhodin, Nadia Robertini|arXiv (Cornell University)|2016. 07. 28.

Human Pose and Action Recognition참고 문헌 65인용 수 22

한 줄 요약

이 논문은 배경 제거 또는 수동 초기화 없이, 다중 시야 영상에서 체적 윤곽 신호를 사용하여 완전 자동으로 3D 인간 자세와 형태를 동시에 캡처하는 방법을 제안한다. 분석적이고 미분 가능한 레이 캐스팅 모델과 가우시안 밀도 필드, 통계적 신체 모델을 활용하여 최소 2대의 카메라에서 자세, 형태, 외관을 동시에 최적화하며, 자세 추정에서 최신 기술 수준의 정확도를 달성하면서도 레이어드 애니메이션 모델로의 완전 자동 복원을 가능하게 한다.

ABSTRACT

Markerless motion capture algorithms require a 3D body with properly personalized skeleton dimension and/or body shape and appearance to successfully track a person. Unfortunately, many tracking methods consider model personalization a different problem and use manual or semi-automatic model initialization, which greatly reduces applicability. In this paper, we propose a fully automatic algorithm that jointly creates a rigged actor model commonly used for animation - skeleton, volumetric shape, appearance, and optionally a body surface - and estimates the actor's motion from multi-view video input only. The approach is rigorously designed to work on footage of general outdoor scenes recorded with very few cameras and without background subtraction. Our method uses a new image formation model with analytic visibility and analytically differentiable alignment energy. For reconstruction, 3D body shape is approximated as Gaussian density field. For pose and shape estimation, we minimize a new edge-based alignment energy inspired by volume raycasting in an absorbing medium. We further propose a new statistical human body model that represents the body surface, volumetric Gaussian density, as well as variability in skeleton shape. Given any multi-view sequence, our method jointly optimizes the pose and shape parameters of this model fully automatically in a spatiotemporal way.

연구 동기 및 목표

마커리스 모션 캡처에서 수동 또는 반자동 초기화를 제거하여 실세계 환경에서의 실용성을 높이기 위해.
통제되지 않은 환경에서 희소한 다중 시야 영상으로부터 개인화된 3D 인간 형태, 뼈대, 외관 및 운동을 동시에 추정할 수 있도록 하기 위해.
배경 분할 없이 윤곽 기반 정렬을 지원하는 분석적이고 미분 가능한 영상 형성 모델을 개발하기 위해.
표면, 체적 밀도, 뼈대 치수의 변동성을 저차원 공간에서 캡처하는 통계적 신체 모델을 구축하기 위해.
단일 검출 및 영상 기울기 정보를 동시에 활용하여 자세와 형태에 대한 완전 자동의 시공간 최적화를 달성하기 위해.

제안 방법

인간 신체를 운동 기반 뼈대에 부착된 가우시안 밀도 필드로 표현하여 부드럽고 미분 가능한 형태 표현을 가능하게 한다.
새로운 분석적 가시성 모델과 흡수성 매질 내에서의 체적 레이 캐스팅 기반의 미분 가능한 정렬 에너지를 도입한다.
원본 RGB 영상에서 모델 윤곽선과의 정렬 정도를 측정하는 뾰족한 윤곽 에너지를 영상 기울기를 통해 정의한다.
1단계에서는 컨볼루션 네트워크 기반의 관절 검출 시스템을 사용해 초기 자세 추정을 수행하고, 2단계에서는 윤곽 보정을 수행한다.
검출 및 윤곽 신호를 동시에 활용해 자세 및 형태 파rameter를 시공간적으로 공동 최적화하는 프레임워크를 적용한다.
표면, 체적 밀도, 뼈대 치수의 변동성을 저차원 공간에 캡처하는 통계적 신체 모델을 학습한다.

실험 결과

연구 질문

RQ1배경 제거 없이 최소한의 다중 시야 영상 입력으로부터 완전 자동으로 3D 인간 형태, 자세, 외관을 동시에 추정할 수 있는가?
RQ2합성 가우시안 체적 표현 내에서 분석적이고 미분 가능한 윤곽 정렬 에너지를 정의할 수 있는가, 이를 통해 강건한 형태 최적화가 가능한가?
RQ3단일 통계적 신체 모델이 표면, 체적 밀도, 뼈대 치수의 변동성을 효과적으로 표현하여 다양한 피험자에 대해 일반화할 수 있는가?
RQ4사전 스캔이나 수동 분할 없이도 영상 자료만으로도 정확하고 자동으로 레이어드 애니메이션 모델을 초기화할 수 있는가?
RQ5이 방법은 소수의 카메라와 복잡한 배경을 가진 실세계의 통제되지 않은 환경에서 얼마나 잘 성능을 발휘하는가?

주요 결과

HumanEva-I 데이터셋에서 평균 자세 오차가 74.9 mm (±21.9 mm)로, 수동 초기화가 필요한 최신 기술 수준의 방법과 유사한 정확도를 달성한다.
관절 오프셋 보정을 적용한 결과 평균 자세 오차가 3–5 cm로 감소하여, 완전 자동 초기화임에도 불구하고 높은 정확도를 입증한다.
최소 2대의 카메라로도 실내 및 실외 환경에서 정확한 3D 형태와 자세를 성공적으로 복원한다.
처리 시간은 프레임 수와 카메라 수에 비례 선형적으로 증가하며, 윤곽 최적화 시간은 1개 시야당 약 3초 (50프레임, 6시야 기준 총 15분) 소요된다.
일반적인 의복, 특히 스커트나 느슨한 옷차림에도 잘 일반화되지만, 얼굴 특징이나 손 관절의 세밀한 디테일은 재구성하지 못한다.
2대 이상의 카메라에서 완전 자동 복원이 가능하고, 단일 영상에서는 반자동 형태 추정이 가능하여 수동 작업을 크게 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.