[논문 리뷰] 3DFaceNet: Real-time Dense Face Reconstruction via Synthesizing Photo-realistic Face Images
이 논문은 역렌더링과 다중 척도 세부 정보 전달을 통해 세밀한 디테일을 가진 사진처럼 생긴 얼굴 이미지를 합성하는 새로운 데이터 생성 파이pline을 활용한 실시간 밀도 3D 얼굴 재구성 프레임워크인 3DFaceNet을 제안한다. 다양한 합성 이미지 및 영상 프레임 쌍으로 훈련된 코arse-to-fine 컨volution 신경망 프레임워크는 단일 이미지나 단안 영상에서 매우 빠른 계산 시간과 자세, 표정, 조명 변화에 대한 강건성을 바탕으로 고품질의 3D 재구성을 달성한다.
With the powerfulness of convolution neural networks (CNN), CNN based face reconstruction has recently shown promising performance in reconstructing detailed face shape from 2D face images. The success of CNN-based methods relies on a large number of labeled data. The state-of-the-art synthesizes such data using a coarse morphable face model, which however has difficulty to generate detailed photo-realistic images of faces (with wrinkles). This paper presents a novel face data generation method. Specifically, we render a large number of photo-realistic face images with different attributes based on inverse rendering. Furthermore, we construct a fine-detailed face image dataset by transferring different scales of details from one image to another. We also construct a large number of video-type adjacent frame pairs by simulating the distribution of real video data. With these nicely constructed datasets, we propose a coarse-to-fine learning framework consisting of three convolutional networks. The networks are trained for real-time detailed 3D face reconstruction from monocular video as well as from a single image. Extensive experimental results demonstrate that our framework can produce high-quality reconstruction but with much less computation time compared to the state-of-the-art. Moreover, our method is robust to pose, expression and lighting due to the diversity of data.
연구 동기 및 목표
- 딥 러닝 모델을 훈련하기 위해 필요한 대규모, 사진처럼 생긴, 세밀한 3D 얼굴 이미지 데이터셋의 부족을 해결하기 위해.
- 주름이나 세밀한 질감과 같은 현실적인 얼굴 디테일을 생성하는 데에 한계가 있는 원시 형태의 모델러블 모델의 문제점을 해결하기 위해.
- 제어 가능한 특성과 현실적인 조명 조건을 갖춘 다양한 고품질의 얼굴 이미지를 합성하는 데이터 생성 파이pline을 개발하기 위해.
- 실제 세계의 시간적 동적 특성을 모방하기 위해 인접 프레임 쌍으로 구성된 대규모 영상 유사 데이터셋을 구축하기 위해.
- 소비자용 하드웨어에서 실시간으로 정확한 3D 얼굴 재구성을 가능하게 하는 경량이며 종단 간(end-to-end) 딥 러닝 프레임워크를 제공하기 위해.
제안 방법
- 외관 및 기하학적 특성을 최적화하여 다양한 특성(예: 신원, 자세, 표정, 조명)을 가진 사진처럼 생긴 얼굴 이미지를 역렌더링을 통해 합성한다.
- 고해상도 원본 이미지에서 세밀한 질감(예: 주름)을 대상 이미지에 다중 척도 세부 정보 전달 기법을 적용하여 주입함으로써 현실감을 향상시킨다.
- 위의 기법들을 사용하여 세밀한 표면 디테일을 가진 합성 2D 얼굴 이미지의 대규모 데이터셋을 구축한다.
- 실제 운동과 외관 전이를 시뮬레이션하여 실생활 영상 분포를 모방하는 영상 유사 인접 프레임 쌍을 생성한다.
- 단일 2D 이미지 또는 영상 시퀀스에서 점진적으로 3D 얼굴 형태와 질감을 개선하는 코어스 투 파인 세 단계 컨volution 신경망 아키텍처를 설계한다.
- 소비자용 하드웨어에서 실시간 추론을 가능하게 하기 위해 합성 데이터셋을 기반으로 네트워크를 종단 간(end-to-end)으로 훈련시킨다.
실험 결과
연구 질문
- RQ1역렌더링과 세부 정보 전달 기반의 데이터 생성 파이pline이 세밀한 해부학적 디테일을 가진 사진처럼 생긴 고해상도 3D 얼굴 이미지를 성공적으로 합성할 수 있는가?
- RQ2멀티스케일 세부 정보 전달 및 영상 유사 프레임 쌍이 포함된 합성 데이터셋은 다양한 자세, 표정, 조명 조건에서 강건한 3D 얼굴 재구성을 가능하게 하는가?
- RQ3합성 데이터셋으로 훈련된 코어스 투 파인 컨volution 신경망 프레임워크가 고성능을 유지하면서도 실시간 성능을 달성할 수 있는가?
- RQ4영상 유사 프레임 쌍의 사용이 단안 3D 얼굴 재구성에서 시간적 일관성을 얼마나 향상시키는가?
- RQ5재구성 정확도와 추론 속도 측면에서 제안된 방법은 최신 기술 대비 어떻게 비교되는가?
주요 결과
- 제안된 데이터 생성 방법은 주름과 같은 세밀한 디테일을 가진 사진처럼 생긴 얼굴 이미지를 성공적으로 합성하였으며, 전통적인 모델러블 모델보다 높은 현실감을 구현하였다.
- 멀티스케일 세부 정보 전달 및 영상 유사 프레임 쌍이 포함된 합성 데이터셋 덕분에 모델은 다양한 신원, 자세, 표정, 조명 조건에서 잘 일반화되는 것으로 나타났다.
- 3DFaceNet 프레임워크는 표준 GPU에서 실시간 추론을 구현하였으며, 최신 기술 대비 계산 시간을 크게 단축시켰다.
- 훈련 데이터의 다양성 덕분에 큰 자세 변화나 복잡한 표정 변화와 같은 도전적인 조건에서도 모델은 강건한 성능을 보였다.
- 코어스 투 파인 아키텍처는 이전 방법 대비 향상된 기하학적 정확도와 질감 정확도를 가진 고해상도 3D 얼굴 재구성을 가능하게 하였다.
- 낮은 추론 지연을 유지하면서도 경쟁 가능한 재구성 품질을 달성하여 AR/VR 및 생체 인식과 같은 실시간 응용 분야에 적합하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.