[논문 리뷰] MorphGANFormer: Transformer-based Face Morphing and De-Morphing
트랜스포머 기반 MorphGANFormer는 구성적 잠재 공간으로 고품질 얼굴 모핑과 잠재 공간 디모핑을 가능하게 하며, 시각적 현실감이 향상되고 GAN 기반 방법과 비교하여 취약성–탐지 가능성의 정의된 균형을 보여준다.
Semantic face image manipulation has received increasing attention in recent years. StyleGAN-based approaches to face morphing are among the leading techniques; however, they often suffer from noticeable blurring and artifacts as a result of the uniform attention in the latent feature space. In this paper, we propose to develop a transformer-based alternative to face morphing and demonstrate its superiority to StyleGAN-based methods. Our contributions are threefold. First, inspired by GANformer, we introduce a bipartite structure to exploit long-range interactions in face images for iterative propagation of information from latent variables to salient facial features. Special loss functions are designed to support the optimization of face morphing. Second, we extend the study of transformer-based face morphing to demorphing by presenting an effective defense strategy with access to a reference image using the same generator of MorphGANFormer. Such demorphing is conceptually similar to unmixing of hyperspectral images but operates in the latent (instead of pixel) space. Third, for the first time, we address a fundamental issue of vulnerability-detectability trade-off for face morphing studies. It is argued that neither doppelganger norrandom pair selection is optimal, and a Lagrangian multiplier-based approach should be used to achieve an improved trade-off between recognition vulnerability and attack detectability.
연구 동기 및 목표
- 아티팩트를 감소시키고 더 미세한 지역 제어를 가능하게 하기 위해 StyleGAN 기반 얼굴 모핑에 대한 트랜스포머 기반 대안을 제시한다.
- 지역별 모핑 제어를 위한 구성적 잠재 공간(16개 로컬 스타일 구성요소 + 1개 글로벌 스타일 구성요소) 도입.
- 잠재 코드와 이미지 피처 간 정보를 전파하기 위해 이분 트랜스포머 어텐션을 사용하는 양방향 MorphGANFormer 생성기 개발.
- 현실성과 공격 성공 간의 균형을 맞추기 위해 생체 인식 기반, 랜드마크 기반, 지각적, MSE를 결합한 손실 함수를 설계한다.
- 같은 생성기를 사용한 디모핑으로 모핑을 확장하고 잠재 공간 디모핑을 통해 취약성–탐지 가능성 균형을 분석한다.
제안 방법
- 잠재 구성요소와 이미지 특징 간의 장거리 선형 스케일 상호작용을 가능하게 하는 이분 트랜스포머 어텐션이 있는 GANformer 기반 생성기를 사용한다.
- 다양한 얼굴 부위를 조절하기 위해 16개의 로컬 스타일 구성요소와 1개의 글로벌 스타일 구성요소를 가진 구성적 잠재 코드를 채택한다.
- 잠재 정보를 이미지 격자에 전달하기 위해 simplex 및 duplex 어텐션을 사용하고 1024x1024 이미지를 생성하기 위해 9개의 합성 블록을 쌓는다.
- 랜드마크의 Wing loss, 생체 손실(HOG 기반 코사인 거리), 지각 손실(VGG-16 특징), 그리고 픽셀 단위 MSE를 결합한 손실로 잠재 코드를 최적화한다.
- 잠재 코드를 보간하여 모핑을 수행하고, 디모핑은 신뢰할 수 있는 실시간 캡처를 기준으로 잠재 공간에서 수행한다.
- 모핑 공격의 취약성-탐지 균형을 연구하기 위해 라그랑지 승수에 영감을 받은 접근법을 도입한다.
실험 결과
연구 질문
- RQ1스타일 GAN 기반 방법과 비교할 때 트랜스포머 기반 아키텍처가 얼굴 모핑의 품질과 현실감을 어떻게 개선할 수 있는가?
- RQ2구성적이고 지역 인지적인 잠재공간이 더 미세한 제어를 가능하게 하고 모핑의 아티팩트를 줄일 수 있는가?
- RQ3같은 생성기와 참조 라이브 캡처를 사용해 잠재 공간에서 디모핑을 수행하는 것이 feasible한가?
- RQ4모핑 공격의 취약성–탐지 균형은 무엇이며 이를 최적화하기 위해 이미지 쌍을 어떻게 선택해야 하는가?
- RQ5MorphGANFormer 공격은 기존 모핑 공격과 비교하여 탐지 및 생체 인식 보존 측면에서 어떻게 다른가?
주요 결과
| 데이터 세트 | 모핑 유형 | ArcFace | FaceNet | LBP |
|---|---|---|---|---|
| Doppelgänger | OpenCV [2] | 94.73 | 82.23 | 87.50 |
| Doppelgänger | FaceMorpher [3] | 81.21 | 73.83 | 87.92 |
| Doppelgänger | StyleGAN2 [7] | 84.21 | 70.65 | 85.52 |
| Doppelgänger | MorphGANFormer | 90.08 | 70.92 | 89.77 |
| FRGC-morph | OpenCV [2] | 87.75 | 74.51 | 94.61 |
| FRGC-morph | FaceMorpher [3] | 80.39 | 72.06 | 85.78 |
| FRGC-morph | StyleGAN2 [7] | 38.73 | 35.78 | 78.43 |
| FRGC-morph | MorphGANFormer | 48.04 | 42.65 | 84.80 |
- MorphGANFormer는 1024x1024 해상도에서 StyleGAN 기반 방법보다 더 적은 인공물로 고품질 모핑을 달성한다.
- 16개의 로컬 구성요소와 1개의 글로벌 구성요소를 갖는 구성적 잠재공간은 지역별 제어와 잠재 코드와 이미지 특징 간의 양방향 정보 흐름을 가능하게 한다.
- 신뢰할 수 있는 실시간 캡처를 사용한 잠재 공간에서의 디모핑이 가능하며 두 번째 진본 정체성의 복원을 보인다.
- MorphGANFormer 공격은 일부 기준선보다 경쟁력 있거나 더 높은 MMPMR 점수를 보이며 인식 취약성과 공격 탐지 가능성 간의 의미 있는 균형을 드러낸다.
- 취약성-탐지 분석은 이중 도플링거나 무작위 쌍 선택 모두 최적은 아님을 시사하며, 라그랑지 접근이 균형을 개선한다.
- 디모핑 결과는 데이터세트 전반에 걸쳐 복원된 얼굴이 해당 진본 정체성과 닮았음을 보여 모핑 위협에 대한 방어 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.