[논문 리뷰] Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
두 조건부 및 확률적 스타일 표현을 공동으로 활용하는 co-modulated GAN을 도입하여 대규모 고품질 다양성 이미지 인페인팅을 가능하게 하고 평가를 위한 지각적 지표(P-IDS/U-IDS)를 제안한다.
Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/zsyzzsoft/co-mod-gan.
연구 동기 및 목표
- 이미지-조건화 모듈화 GAN과 무조건적 모듈화 GAN 간의 간극을 좁혀 대규모 인페인팅을 다룬다.
- 제한된 조건 정보에도 다양한 및 일관된 인페인팅을 가능하게 한다.
- 이미지 완성의 지각적 충실도를 위한 강력한 정량 지표를 제공한다.
- 이미지-투-이미지 변환 작업으로의 일반화를 입증한다.
제안 방법
- 공변조를 제안한다: 선형 어파인 매핑을 통해 조건 인코더 출력과 확률적 잠재 스타일을 함께 사용하여 특징을 공동으로 변조한다.
- 이미지-조건 생성기 내에서 무조건적 모듈레이션 아키텍처(StyleGAN2 스타일)를 활용하여 확률성을 유지한다.
- 다양성과 현실감을 촉진하기 위해 추가 L1 손실 없이 표준 GAN 손실로 학습한다.
- P-IDS/U-IDS 도입: Inception 특징 공간에서 선형 SVM을 사용한 페어링/언페어드 Inception 기반 판별 점수로 지각적 충실도를 측정한다.
- 공변조가 품질과 다양성을 모두 향상시키며, 특히 큰 결손 영역에 대해 더 나은 성능을 보이고 이미지-투-이미지 변환을 쉽게 가능하게 함을 입증한다.
실험 결과
연구 질문
- RQ1공변조 GAN이 이미지-조건화된 생성기와 무조건적 생성기를 연결하여 대규모 이미지 완성을 처리할 수 있는가?
- RQ2공변조 모델이 추가 감독 없이도 보정된 다양성과 지각적 충실도를 제공하는가?
- RQ3제안된 P-IDS/U-IDS 지표가 강건하고 확장 가능하며 인간의 선호도와 상관관계가 있는가?
- RQ4이 접근법이 인페인팅을 넘어 이미지-투-이미지 변환 작업으로 일반화될 수 있는가?
주요 결과
| 방법 | FFHQ P-IDS (%) | FFHQ U-IDS (%) | FFHQ FID | Places2 P-IDS (%) | Places2 U-IDS (%) | Places2 FID |
|---|---|---|---|---|---|---|
| RFR (official) | 0.0 pm 0.0 | 0.0 pm 0.0 | 48.7 pm 0.5 | 0.3 pm 0.0 | 4.6 pm 0.0 | 49.6 pm 0.2 |
| DeepFillv2 (official) | 0.0 pm 0.0 | 0.1 pm 0.0 | 83.5 pm 0.6 | 0.8 pm 0.0 | 8.4 pm 0.0 | 30.6 pm 0.2 |
| DeepFillv2 (retrained) | 0.9 pm 0.1 | 8.6 pm 0.2 | 17.4 pm 0.4 | 1.4 pm 0.0 | 11.4 pm 0.0 | 22.1 pm 0.1 |
| Ours | 16.6 pm 0.3 | 29.4 pm 0.3 | 3.7 pm 0.0 | 13.3 pm 0.1 | 27.4 pm 0.1 | 7.9 pm 0.0 |
- 공변조 GAN은 최첨단 방법과 비교해 자유 형식 이미지 완성에서 우수한 품질과 다양성을 달성한다.
- 공변조는 확률성을 보존하고 고정 입력 및 마스크에서도 다양한 출력물을 생성한다.
- P-IDS/U-IDS 지표는 소량 샘플에서 수렴하고 인간의 선호도와 잘 일치하며, FID/KID보다 강건성과 민감도 측면에서 우수하다.
- 이 방법은 edges-to-photos 및 COCO-Stuff 레이블-대-이미지 합성 같은 이미지-투-이미지 변환 작업으로 일반화된다.
- 소거 연구에서 공변조가 일반적인(vanilla) 및 순수 조건적 모듈레이션보다 우수하다는 것이 확인되며, 특히 큰 누락 영역에서 두드러진다.
- FFHQ 및 Places2에서 본 방법은 P-IDS/U-IDS 및 FID에서 모두 우수한 정량적 결과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.