[논문 리뷰] ExprGAN: Facial Expression Editing with Controllable Expression Intensity
ExprGAN은 얼굴을 목표 표정으로 편집하여 연속적으로 제어 가능한 강도로 결과를 생성하고 사진과 같은 품질의 결과와 아이덴티티/표정 표현의 분리를 달성합니다. 또한 표정 전이 및 표정 인식용 데이터 증강을 지원합니다.
Facial expression editing is a challenging task as it needs a high-level semantic understanding of the input face image. In conventional methods, either paired training data is required or the synthetic face resolution is low. Moreover, only the categories of facial expression can be changed. To address these limitations, we propose an Expression Generative Adversarial Network (ExprGAN) for photo-realistic facial expression editing with controllable expression intensity. An expression controller module is specially designed to learn an expressive and compact expression code in addition to the encoder-decoder network. This novel architecture enables the expression intensity to be continuously adjusted from low to high. We further show that our ExprGAN can be applied for other tasks, such as expression transfer, image retrieval, and data augmentation for training improved face expression recognition models. To tackle the small size of the training database, an effective incremental learning scheme is proposed. Quantitative and qualitative evaluations on the widely used Oulu-CASIA dataset demonstrate the effectiveness of ExprGAN.
연구 동기 및 목표
- 제한된 표현 범주나 짝지어진 데이터에 의존하지 않고 얼굴 표정 편집의 동기를 부여합니다.
- 연속적으로 제어 가능한 표정 코드를 생성하는 인코더–디코더 GAN에 표현 컨트롤러를 개발합니다.
- 아이덴티티와 표정 표현을 분리하여 표정 전이와 검색 같은 다목적 응용에 활용합니다.
- 듀얼 디스크리미네이터와 perceptual loss로 사실감을 높이고, 작은 데이터셋은 점진적 학습으로 처리합니다.
제안 방법
- 입력 얼굴을 인코더를 사용하여 아이덴티티 보존 잠재 코드 g(x)로 매핑합니다.
- one-hot 표현 레이블 y를 연속 표정 코드 c로 변환하는 표현 컨트롤러 모듈 F_ctrl를 도입합니다.
- 정규화 항 Q를 통해 생성 이미지와 표현 코드 사이의 상호정보를 최대화하고 c의 각 차원이 서로 다른 강도 요인을 포착하도록 합니다.
- g(x)와 c에 조건화된 G_dec로 이미지를 생성하고, D_img로 사진 품질을, 사전 학습된 얼굴 모델을 사용한 특징 손실 L_id로 아이덴티티 보존을 강제합니다.
- D_z를 사용하여 g(x)에서 잠재 공간 선험을 부여하여 아이덴티티 표현이 매니폴드를 커버하도록 합니다.
- 픽셀, 아이덴티티, Q, 적대적, 총 변동 손실을 포함하는 합성 목표 L_ExprGAN을 세 단계의 점진적 학습 일정으로 훈련합니다.
실험 결과
연구 질문
- RQ1명시적 강도 라벨이 없어도 얼굴 표정 편집에서 연속적 표정 강도를 제어할 수 있습니까?
- RQ2모델이 아이덴티티와 표정을 분리하여 표정 편집이나 전이가 아이덴티티를 보존하도록 합니까?
- RQ3ExprGAN이 고품질 이미지 합성 및 표정 인식 데이터 증강에 대해 어떻게 성능을 보입니까?
- RQ4각 표정 범주 내에서 다양한 표정 스타일을 생성할 수 있습니까?
- RQ5작은 데이터셋에서 효과적으로 학습하기 위해 점진적 학습이 필요한가요?
주요 결과
| # 합성 이미지 | 정확도 (%) |
|---|---|
| 0 | 77.78 |
| 3K | 78.47 |
| 6K | 81.94 |
| 30K | 84.72 |
| 60K | 84.72 |
- ExprGAN은 학습 데이터에 없는 중립 표정을 포함하여 연속적으로 조절 가능한 강도 수준으로 얼굴을 여러 표정으로 편집할 수 있습니다.
- 모델은 새로운 표정을 적용하면서도 아이덴티티를 보존하며 현실적인 질감과 세부를 제공합니다.
- 표정 전이가 다른 아이덴티티에 대해 가능하며, 소스 아이덴티티에 대상 표정이 적용됩니다.
- 생성된 이미지는 데이터 증강에 사용될 수 있으며 표정 인식 정확도를 향상시킵니다(예: 30K 합성 이미지로 최대 84.72%까지).
- 아이덴티티 표현 g(x)는 잠재 공간에서 잘 분리되며, 표현 코드 c를 통해 피처 공간에서 유사한 표현을 검색할 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.