QUICK REVIEW

[논문 리뷰] Towards Accurate Markerless Human Shape and Pose Estimation over Time

Yinghao Huang, Federica Bogo|arXiv (Cornell University)|2017. 07. 24.

Human Pose and Action Recognition참고 문헌 7인용 수 68

한 줄 요약

MuVS는 다중 뷰 및 단일 카메라 비디오에 SMPLify를 확장하여 2D 관절과 실루엣에 3D SMPL 바디 모델을 피팅하고 DCT 기반의 시간적 우선순위를 사용함으로써 배경 제거 없이도 정확한 포즈와 현실적인 바디 메시를 제공합니다.

ABSTRACT

Existing marker-less motion capture methods often assume known backgrounds, static cameras, and sequence specific motion priors, which narrows its application scenarios. Here we propose a fully automatic method that given multi-view video, estimates 3D human motion and body shape. We take recent SMPLify \cite{bogo2016keep} as the base method, and extend it in several ways. First we fit the body to 2D features detected in multi-view images. Second, we use a CNN method to segment the person in each image and fit the 3D body model to the contours to further improves accuracy. Third we utilize a generic and robust DCT temporal prior to handle the left and right side swapping issue sometimes introduced by the 2D pose estimator. Validation on standard benchmarks shows our results are comparable to the state of the art and also provide a realistic 3D shape avatar. We also demonstrate accurate results on HumanEva and on challenging dance sequences from YouTube in monocular case.

연구 동기 및 목표

다중 뷰 비디오에서 완전 자동 마커리스 3D 인간 포즈 및 형태 추정 제공.
Coherent body shape and pose representation을 SMPL로 활용합니다.
정합도 향상을 위해 CNN 기반 2D 관절 및 실루엣을 피팅에 포함합니다.
DCT 기반 시간 우선순위를 통해 좌우 불일치 및 시간적 불일정을 해결합니다.
실제 세계의 영상과 단일 카메라 시퀀스에의 적용 가능성을 입증합니다.

제안 방법

인간의 몸을 SMPL 모델로 표현하고 다중 뷰 2D 관절과 정렬되도록 포즈와 형태를 최적화합니다.
각 뷰에서 2D 관절을 감지하고 바디 실루엣을 분할하기 위해 CNN을 사용합니다.
프레임별로 뷰 간에 SMPL를 독립적으로 피팅한 뒤 실루엣(E_S 항)으로 형태를 정제합니다.
저차원 DCT 시간 우선순위를 사용해 프레임 간 관절 궤적을 제한하고 강인한 관절 재투영 오차를 최소화합니다.
계층적 최적화 전략을 채택합니다: 먼저 관절에 피팅하고, 그다음 실루엣과 시간 정규화를 도입합니다; 잔차에 대해 강인한 Geman-McClure 오차를 사용합니다.
실루엣, 시간적 우선순위 및 다중 뷰 데이터의 영향을 정량화하는 차별화 연구를 제공하며, 한정된 시간 정보를 가진 단일 뷰 가능성을 실험으로 보입니다.

실험 결과

연구 질문

RQ1배경 제거나 사용자 개입 없이도 완전 자동 다중 뷰 시스템이 정확한 3D 인간 포즈와 바디 형태를 추정할 수 있는가?
RQ2실루엣 정보와 시간적 DCT 우선순위를 통합하면 프레임별 피팅보다 포즈 및 형태 정확도가 개선되는가?
RQ3다중 뷰 데이터가 좌우 교환 및 자세 모호성 같은 문제를 해결하는 데 단일 뷰보다 우수한가?
RQ4포즈 추정 이상으로 현실적인 3D 바디 메시를 만들어 애니메이션에 사용할 수 있을 정도의 신뢰성을 제공하는가?
RQ5본 접근법이 인간 Eva 데이터 외의 도전적 단일 뷰 영상 및 Human3.6M, YouTube 시퀀스와 같은 데이터셋에 일반화될 수 있는가?

주요 결과

MuVS는 HumanEva 및 Human3.6M에서 포즈 오차가 최첨단 벤치마크와 비슷한 수준이다.
실루엣 피팅은 3D 포즈 및 형태 정확도와 메시의 리얼리즘을 크게 향상시킨다.
DCT 기반 시간적 우선순위는 프레임 간 오차를 감소시키고 다리 스왑 및 기타 시간적 인공물을 완화한다.
다중 뷰를 사용하면 단일 뷰 SMPLify에 비해 방향 및 포즈 정확도에서 상당한 개선을 얻는다.
SMPL 모델을 통한 현실적인 바디 메시를 생성하여 생생한 아바타 생성과 애니메이션에 활용할 수 있다.
단일 뷰 시퀀스에서도 시간적 일관성이 있어 제한된 깊이 신호 하에서도 합리적인 재구성이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.