[논문 리뷰] Generating 3D faces using Convolutional Mesh Autoencoders
이 논문은 계층적 샘플링을 통해 다중 척도의 형태 및 표정 변화를 모델링하는 메시 기반 스펙트럼 컨볼루션을 사용한 비선형 3D 얼굴 표현인 컨volution 알터네이터 메시 오토에인코더(CoMA)를 제안한다. 극단적인 표정을 가진 20,466개의 고해상도 얼굴 메시 데이터셋으로 훈련된 CoMA는 상태기반 PCA 기반 모델 대비 50% 낮은 재구성 오차를 달성하면서도 파rameter 수를 75% 줄였으며, FLAME의 표현 공간을 대체할 경우 재구성 정확도가 향상된다.
Learned 3D representations of human faces are useful for computer vision problems such as 3D face tracking and reconstruction from images, as well as graphics applications such as character generation and animation. Traditional models learn a latent representation of a face using linear subspaces or higher-order tensor generalizations. Due to this linearity, they can not capture extreme deformations and non-linear expressions. To address this, we introduce a versatile model that learns a non-linear representation of a face using spectral convolutions on a mesh surface. We introduce mesh sampling operations that enable a hierarchical mesh representation that captures non-linear variations in shape and expression at multiple scales within the model. In a variational setting, our model samples diverse realistic 3D faces from a multivariate Gaussian distribution. Our training data consists of 20,466 meshes of extreme expressions captured over 12 different subjects. Despite limited training data, our trained model outperforms state-of-the-art face models with 50% lower reconstruction error, while using 75% fewer parameters. We also show that, replacing the expression space of an existing state-of-the-art face model with our autoencoder, achieves a lower reconstruction error. Our data, model and code are available at http://github.com/anuragranj/coma
연구 동기 및 목표
- 극단적인 표정에서 비선형적 얼굴 변형을 포착하지 못하는 선형 모델의 한계를 해결하기 위해.
- 비선형성과 메모리 효율성을 동시에 확보한 딥러닝 기반 3D 얼굴 표현을 개발하기 위해.
- 새로운 메시 샘플링 및 컨볼루션 연산을 통해 계층적 다중 척도의 얼굴 형태 및 표정보다 모델링할 수 있도록 하기 위해.
- 변동 가능한 잠재 공간에서 다양한 현실적인 3D 얼굴을 생성할 수 있도록 압축형이고 훈련 가능한 모델을 만들기 위해.
- 연구 목적을 위해 사용 가능한 20,466개의 고해상도 3D 얼굴 메시 데이터셋을 공개하기 위해.
제안 방법
- 메시 라플라시안에 기반한 빠른 체비셰프 필터를 사용한 스펙트럼 컨볼루션을 통해 비유클리드 표면에서 국소적이고 파rameter 효율적인 컨볼루션을 수행한다.
- 스케일 간의 위상적 구조를 유지하는 새로운 메시 다운샘플링 및 업샘플링 연산을 도입한다.
- 다변량 정규분포 사전을 사용한 변동형 오토에인코더 프레임워크를 활용하여 잠재 공간에서 다양한 3D 얼굴 생성을 가능하게 한다.
- 라플라시안-벨트라미 연산자를 적용하여 주파수 도메인 컨볼루션을 가능하게 하여 고해상도 메시에 대해 메모리 효율적인 연산을 수행한다.
- 12명의 피험자가 복잡하고 비대칭적인 표정을 취하면서 심한 조직 변형이 발생하는 12가지 표현을 포함한 데이터셋을 기반으로 모델을 종합적으로 훈련한다.
- 메시 표면 전반에 걸쳐 컨볼루션 필터를 공유함으로써 파rameter 수를 줄이면서도 국소 불변성을 유지한다.
실험 결과
연구 질문
- RQ1비선형 딥러닝 모델이 극단적인 표정 조건에서도 선형 PCA 기반 모델보다 3D 얼굴 형태 재구성에서 더 나은 성능을 보일 수 있는가?
- RQ2새로운 샘플링 연산을 적용한 계층적 메시 컨볼루션은 다중 척도의 얼굴 형태 및 표정 변화를 효과적으로 포착할 수 있는가?
- RQ3제한된 데이터로 훈련된 압축형이고 파라미터 효율적인 모델이 기존 최첨단 모델보다 더 나은 일반화 성능을 보일 수 있는가?
- RQ4학습된 잠재 공간을 활용해 표준 정규분포에서의 변동형 샘플링을 통해 다양한 현실적인 3D 얼굴 메시를 생성할 수 있는가?
- RQ5FLAME와 같은 최첨단 모델의 표현 공간을 CoMA로 대체할 경우 재구성 정확도는 어느 정도 향상되는가?
주요 결과
- CoMA는 제한된 훈련 데이터 조건에서도 보간 작업에서 PCA 기반 모델 대비 50% 낮은 재구성 오차를 달성한다.
- 선형 PCA 모델 대비 파라미터 수를 75% 줄였음에도 불구하고 더 뛰어난 재구성 성능를 확보한다.
- FLAME의 표현 공간을 CoMA로 대체할 경우, 테스트된 모든 잠재 차원 크기에서 중앙값 재구성 오차가 감소하며, 특히 12개의 잠재 차원에서 가장 큰 향상이 관찰되었다(0.139 mm 대비 0.172 mm).
- 변동형 설정에서 CoMA는 잠재 공간의 표준 정규분포에서부터 다양한 현실적인 3D 얼굴 메시를 성공적으로 샘플링하였다.
- 모델는 새로운 얼굴 표정에 대해 잘 일반화되어 있으며, 비선형 변형을 포착하는 데서 선형 모델보다 뛰어난 성능을 보였다.
- 극단적인 표정을 가진 20,466개의 고해상도 3D 얼굴 메시 데이터셋이 연구 목적을 위해 공개되었으며, 코드와 훈련된 모델과 함께 제공된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.