Skip to main content
QUICK REVIEW

[논문 리뷰] Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set

Yu Deng, Jiaolong Yang|arXiv (Cornell University)|2019. 03. 20.
Face recognition and analysis참고 문헌 54인용 수 38
한 줄 요약

이 논문은 단일 이미지를 사용한 약한 감독 하에서 CNN 기반 프레임워크를 통해 3D 얼굴 재구성을 수행하고, 다중 이미지를 위한 보다 향상된 3D 형태 재구성을 위해 신뢰도 기반으로 융합하는 모듈을 도입합니다.

ABSTRACT

Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency.However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance.

연구 동기 및 목표

  • Ground-truth 3D 라벨 없이도 랜드마크, 피부 마스크, 얼굴 인식 특징과 같은 약한 감독 신호를 활용하여 정확한 3D 얼굴 재구성을 목표로 한다.
  • Low-level photometric 정보와 perception-level (깊은 특징) 감독을 결합한 하이브리드 수준의 손실을 개발하여 학습을 가이드한다.
  • 가려짐과 외관 변화에 대한 강건성을 높이기 위해 피부 색상 기반의 photometric attention 메커니즘을 제안한다.
  • 이미지 세트 간 3DMM 계수를 집계하기 위해 각 계수의 신뢰 점수를 학습하는 다중 이미지 재구성 기능을 구현한다.
  • 다양한 데이터셋에서 최첨단 성능을 보여주고 추론 속도가 빠르다.

제안 방법

  • 단일 이미지를 이용해 CNN(R-Net)을 통해 3D Morphable Model 계수, 조명, 자세를 회귀한다.
  • 하이브리드 손실로 학습: 피부 주의 마스크가 포함된 이미지 레벨 광도 손실, 랜드마크 손실, 사전 학습된 얼굴 인식 네트워크를 이용한 인식 수준 손실, 그리고 3DMM 계수와 텍스처 분산에 대한 정규화 항을 포함한다.
  • naive Bayes 피부 분류기를 이용해 계산된 피부 주의 메커니즘으로 픽셀 불일치를 가중한다.
  • 다중 이미지 설정에서 보조 네트워크(C-Net)를 학습시켜 각 계수에 대한 신뢰 점수를 출력하고 이를 통해 이미지 간 계수의 원소별 융합을 가능하게 한다.
  • 예측된 신뢰도를 사용해 이미지 간 아이덴티티 계수를 가중 평균으로 집계하고 자세 및 조명 다양성을 재구성 향상에 활용한다.
  • C-Net은 라벨링 없이 학습되며, 단일 이미지 재구성을 같은 하이브리드 손실들로 역전파하여 학습한다.

실험 결과

연구 질문

  • RQ1단일 이미지에서 ground-truth 3D 형태가 없는 상태에서도 하이브리드 이미지-레벨 및 인식 수준 손실이 약한 감독 하의 3D 얼굴 재구성을 개선할 수 있는가?
  • RQ2피부 색상 기반 광도 주의가 3D 재구성에서 가려짐 및 외관 변화에 대한 강건성을 개선하는가?
  • RQ3보조 네트워크가 각 계수의 신뢰도를 예측하여 다중 얼굴 이미지를 더 정확한 3D 형태로 효과적으로 집계할 수 있는가?
  • RQ4다중 이미지 융합이 손실 없는 이미지 세트에서 naive 평균화나 글로벌 품질 점수보다 우수한 성능을 보이는가?
  • RQ5제안된 방법이 표준 데이터셋에서 감독 및 비감독/약한 감독 방식의 최첨단 방법들과 어떻게 비교되는가?

주요 결과

  • 제안된 하이브리드 손실을 이용한 단일 이미지 재구성은 MICC 및 FaceWarehouse 데이터셋에서 최첨단 정확도를 달성한다.
  • 이미지 레벨과 인식 수준의 공동 감독은 어느 한 신호만 사용하는 것보다 성능이 더 좋다.
  • 피부 주의는 가려짐과 도전적인 외관(예: 수염, 화장)에서의 강건성을 향상시킨다.
  • 요소별 신뢰 기반 계수 융합을 통한 다중 이미지 재구성은 형태 평균화 및 기타 전략보다 더 나은 3D 재구성을 제공하며 감독 학습과 근접한 성능에 도달한다.
  • 다양한 데이터셋에서 이 방법은 가려짐 및 큰 포즈에 대한 강건성을 보이며 추론 속도가 빠르다(특히 특정 설정에서 한 전달당 약 20 ms).
  • 신뢰도-네트워크는 고품질의 가시성이 높은 이미지를 강조하도록 효과적으로 학습하며 포즈 차이를 활용해 융합을 개선할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.