[논문 리뷰] 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data
이 논문은 모호한 단일 시야 또는 가림된 이미지에서 다수의 타당한 3D 인간 신체 메시를 생성하는 다중 가설 딥 러닝 프레임워크를 제안한다. 최적의 M개의 손실과 가설 재투영 손실, 정규화 흐름 기반의 양자화 전략을 결합함으로써 예측의 기하학적 일관성과 타당성을 향상시키며, H36M, 그 모호한 변형, 3DPW에서 상태의 최선(SOTA) 기준보다 다중 가설 및 단일 가설 설정 모두에서 뛰어난 성능을 보인다.
We consider the problem of obtaining dense 3D reconstructions of humans from single and partially occluded views. In such cases, the visual evidence is usually insufficient to identify a 3D reconstruction uniquely, so we aim at recovering several plausible reconstructions compatible with the input data. We suggest that ambiguities can be modelled more effectively by parametrizing the possible body shapes and poses via a suitable 3D model, such as SMPL for humans. We propose to learn a multi-hypothesis neural network regressor using a best-of-M loss, where each of the M hypotheses is constrained to lie on a manifold of plausible human poses by means of a generative model. We show that our method outperforms alternative approaches in ambiguous pose recovery on standard benchmarks for 3D humans, and in heavily occluded versions of these benchmarks.
연구 동기 및 목표
- 단일 시야 또는 심한 가림이 있는 이미지에서 시각적 증거가 유일한 재구성에 부족한 경우, 타당한 3D 인간 신체 메시를 재구성하는 문제를 해결하기 위해.
- 기하학적 일관성과 타당성을 보장함으로써 단일 시야 3D 인간 자세 추정에서 다중 가설 출력의 품질과 다양성을 향상시키기 위해.
- 기울기 흐릿함과 정보 없는 가설 등의 표준 최적의 M 학습의 한계를 극복하기 위해 가설 재투영 손실과 유연한 n-양자화 출력을 도입하기 위해.
- 정규화 흐름 사전을 통해 임의의 수 n < M의 가설을 동적 샘플링할 수 있도록 하면서도 높은 타당성을 유지하기 위해.
제안 방법
- 모델은 최적의 M 손실로 훈련된 다중 가설 신경망 회귀자로, 역전파 동안 M개의 가설 중 최상의 하나만 손실 계산에 사용된다.
- 모든 M개의 예측된 3D 메시가 입력 이미지의 2D 관절 좌표에 일관되게 투영되도록 하는 새로운 가설 재투영 손실이 도입되어 기하학적 일관성을 향상시킨다.
- 정규화 흐름 모델을 사용하여 가설을 필터링하고 재가중함으로써, 타당한 자세만 유지되고 출력 집합에서 우선순위가 주어지도록 한다.
- 새로운 n-양자화 최적의 M 전략을 제안하여, 잠재 공간을 양자화함으로써 임의의 수 n < M의 가설을 출력할 수 있도록 하여 유연성과 적용 가능성 향상.
- SMPL을 3D 신체 모델로 사용하고 관절 좌표 감독을 제공하며, 표준 데이터셋(H36M, MPI-INF-3DHP, LSP, MPII, COCO)에서 엔드 투 엔드로 훈련된다.
- 정규화 흐름은 타당한 인간 자세의 사후 분포를 모델링하여, 네트워크가 더 정확하고 다양한 재구성 집합을 학습할 수 있도록 한다.
실험 결과
연구 질문
- RQ1딥 러닝 모델은 단일한 모호하거나 가려진 이미지에서 다수의 타당한 3D 인간 메시 재구성을 생성할 수 있는가?
- RQ2최적의 M 학습 철학을 어떻게 개선하여 열악한 또는 비현실적인 가설을 피하면서도 기울기 흐름을 유지할 수 있는가?
- RQ3가설 재투영 손실은 최상의 가설 뿐 아니라 모든 예측된 가설 간의 기하학적 일관성을 효과적으로 강제할 수 있는가?
- RQ4정규화 흐름을 사용하여 다중 가설 출력의 타당성과 다양성을 3D 인간 메시 재구성에서 향상시킬 수 있는가?
- RQ5제안된 n-양자화 최적의 M 프레임워크는 성능을 유지하면서도 응용에 맞게 임의의 수 n < M의 가설을 탄력적으로 샘플링할 수 있는가?
주요 결과
- 제안된 방법은 H36M, 그 모호한 변형, 3DPW에서 SMPL-CVAE 및 SMPL-MDN을 모두 모든 지표에서 능가하여 모호성의 모델링 능력이 뛰어나다는 것을 입증한다.
- 단일 메시 MPJPE 지표에서 표준 성능을 달성했으며, 이는 단일 가설 출력을 전적으로 최적화하지 않았음에도 불구하고 성능이 뛰어나다는 것을 의미한다.
- 제거 실험 결과, 가설 재투영 손실 또는 정규화 흐름 구성 요소를 제거하면 성능이 크게 떨어지며, 이는 설계 기여의 타당성을 검증한다.
- 모델이 모호한 경우 평균 자세(예: 다리가 아래를 향함)로 수렴하는 경향을 줄이며, 더 다양한 타당한 재구성을 생성한다.
- n-양자화 최적의 M 전략은 n < M의 가설을 탄력적으로 샘플링할 수 있게 하며, 다양한 n 값에서 성능이 안정되어 있어 실생활 적용 가능성 향상.
- 모델은 훈련에 사용되지 않은 3DPW에서 강력한 성능을 보이며, 훈련 데이터 외부로 일반화하는 데 효과적이라는 점에서 효과적인 사전 학습이 이루어졌음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.