[논문 리뷰] Unsupervised Training for 3D Morphable Model Regression
이 논문은 레이블이 없는 사진만을 사용하여 단일 이미지에서 3D 모형화 모델(3DMM) 파라미터로 매핑하는 비지도 학습 방법을 제안한다. 사전 훈련된 얼굴 인식 네트워크에서 유도한 신원 특징과 세 가지 새로운 손실 함수인 배치 분포 손실, 루프백 손실, 다중 시점 신원 손실을 활용함으로써, 지도 학습 없이도 최신 기술 수준의 3D 얼굴 재구성 정확도를 달성한다. 이는 도전적인 이미지에서도 인식 가능하고 신원을 유지하는 3D 얼굴을 생성한다.
We present a method for training a regression network from image pixels to 3D morphable model coordinates using only unlabeled photographs. The training loss is based on features from a facial recognition network, computed on-the-fly by rendering the predicted faces with a differentiable renderer. To make training from features feasible and avoid network fooling effects, we introduce three objectives: a batch distribution loss that encourages the output distribution to match the distribution of the morphable model, a loopback loss that ensures the network can correctly reinterpret its own output, and a multi-view identity loss that compares the features of the predicted 3D face and the input photograph from multiple viewing angles. We train a regression network using these objectives, a set of unlabeled photographs, and the morphable model itself, and demonstrate state-of-the-art results.
연구 동기 및 목표
- 딥 레지션 네트워크 훈련을 위한 대규모 실세계 3D 얼굴 감독 데이터의 부족 문제를 해결하기 위해.
- 실제 3D 스캔이나 역재현 기반의 지도 학습 없이도 단일 이미지에서 정확한 3D 얼굴 재구성을 가능하게 하기 위해.
- 강건한 자세 및 조명에 영향을 받지 않는 신원 특징을 활용하여 3D 얼굴 생성의 일반화 능력과 신원 유지 능력을 향상시키기 위해.
- 합성 데이터나 반복 최적화에 의존하지 않고, 딥 신원 임bedding 기반의 비지도 손실을 사용함으로써 의존도를 제거하기 위해.
제안 방법
- 사전 훈련된 얼굴 인식 네트워크와 레이블이 없는 이미지만을 사용하여, 이미지 픽셀에서 3DMM 형태 및 텍스처 파라미터를 예측하는 회귀 네트워크를 훈련한다.
- 가능한 렌더러가 예측된 3DMM 파라미터에서 합성 얼굴 이미지를 생성하여, 렌더링 과정을 통해 역전파가 가능하도록 한다.
- 입력 이미지와 렌더링된 3D 얼굴 간의 VGG-Face 또는 FaceNet 특징을 비교함으로써, 다양한 자세와 조명 조건에서도 신원 일致성을 확보한다.
- 배치 분포 손실은 예측된 3DMM 파라미터의 통계 분포를 모형화 모델의 사전 분포와 일치시켜 모드 붕괴를 방지한다.
- 루프백 손실은 네트워크가 자신의 출력을 다시 해석할 수 있도록 하기 위해, 예측된 3D 얼굴을 재인코딩하고 동일한 신원 특징을 재구성함으로써 성능을 보장한다.
- 다중 시점 신원 손실은 예측된 3D 얼굴의 여러 독립적인 시점에서 신원 특징을 계산하고, 이를 입력 이미지의 특징과 비교함으로써 강건성을 향상시킨다.
실험 결과
연구 질문
- RQ13D 감독 데이터나 합성 데이터 없이도 3D 얼굴 재구성 네트워크를 훈련시킬 수 있는가?
- RQ2입력 이미지의 자세, 조명, 표정이 다양할 경우, 3D 얼굴 재구성에서 신원 일치를 어떻게 유지할 수 있는가?
- RQ3네트워크 오염과 모드 붕괴를 방지하는 비지도 3DMM 회귀에 효과적인 손실 함수는 무엇인가?
- RQ4레이블이 없는 이미지로 훈련된 회귀 네트워크가 지도 학습 방법과 비교해도 성능이 유사하거나 뛰어나게 할 수 있는가?
- RQ5흐림, 가림, 비사진적 입력과 같은 도전적인 실세계 조건에 대해 이 방법은 얼마나 강건한가?
주요 결과
- MoFA-Test 데이터셋에서 VGG-Face 특징을 사용할 경우, Top-1 신원 복원률이 87%를 기록하여 MoFA(19%)와 Tran 등(25%)을 크게 앞서며 뛰어난 성능을 보였다.
- 5,749명의 다양한 신원을 포함한 더 큰 LFW 데이터셋에서, Top-5 신원 복원률이 51%에 도달하여 다양한 신원에 대한 강력한 일반화 능력을 입증했다.
- LFW에서 재구성된 얼굴의 유사도 점수와 실제 동일 신원 쌍 간의 지구 이동 거리(EMD)는 0.16이었으며, 이는 실제 신원과 매우 유사한 결과를 의미한다.
- BAM 데이터셋에서 비사진적 예술 작품 이미지에서도 신원 특징이 스타일링된 픽셀 세부 정보에 영향을 받지 않기 때문에, 인식 가능하고 일관된 3D 얼굴을 생성함을 보였다.
- FERET 스트레스 테스트 세트를 통해 자세, 조명, 표정, 가림, 흐림 등의 다양한 조건에서도 모델이 강건함을 입증했다.
- 신원, 루프백, 배치 분포 손실을 조합한 비지도 훈련 체계는 모드 붕괴와 네트워크 오염을 효과적으로 방지하여 고품질의 3D 재구성을 이끌어냈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.