QUICK REVIEW

[논문 리뷰] Large Scale Image Completion via Co-Modulated Generative Adversarial Networks

Shengyu Zhao, Jonathan Cui|arXiv (Cornell University)|2021. 03. 18.

Generative Adversarial Networks and Image Synthesis참고 문헌 78인용 수 135

한 줄 요약

두 조건부 및 확률적 스타일 표현을 공동으로 활용하는 co-modulated GAN을 도입하여 대규모 고품질 다양성 이미지 인페인팅을 가능하게 하고 평가를 위한 지각적 지표(P-IDS/U-IDS)를 제안한다.

ABSTRACT

Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/zsyzzsoft/co-mod-gan.

연구 동기 및 목표

이미지-조건화 모듈화 GAN과 무조건적 모듈화 GAN 간의 간극을 좁혀 대규모 인페인팅을 다룬다.
제한된 조건 정보에도 다양한 및 일관된 인페인팅을 가능하게 한다.
이미지 완성의 지각적 충실도를 위한 강력한 정량 지표를 제공한다.
이미지-투-이미지 변환 작업으로의 일반화를 입증한다.

제안 방법

공변조를 제안한다: 선형 어파인 매핑을 통해 조건 인코더 출력과 확률적 잠재 스타일을 함께 사용하여 특징을 공동으로 변조한다.
이미지-조건 생성기 내에서 무조건적 모듈레이션 아키텍처(StyleGAN2 스타일)를 활용하여 확률성을 유지한다.
다양성과 현실감을 촉진하기 위해 추가 L1 손실 없이 표준 GAN 손실로 학습한다.
P-IDS/U-IDS 도입: Inception 특징 공간에서 선형 SVM을 사용한 페어링/언페어드 Inception 기반 판별 점수로 지각적 충실도를 측정한다.
공변조가 품질과 다양성을 모두 향상시키며, 특히 큰 결손 영역에 대해 더 나은 성능을 보이고 이미지-투-이미지 변환을 쉽게 가능하게 함을 입증한다.

실험 결과

연구 질문

RQ1공변조 GAN이 이미지-조건화된 생성기와 무조건적 생성기를 연결하여 대규모 이미지 완성을 처리할 수 있는가?
RQ2공변조 모델이 추가 감독 없이도 보정된 다양성과 지각적 충실도를 제공하는가?
RQ3제안된 P-IDS/U-IDS 지표가 강건하고 확장 가능하며 인간의 선호도와 상관관계가 있는가?
RQ4이 접근법이 인페인팅을 넘어 이미지-투-이미지 변환 작업으로 일반화될 수 있는가?

주요 결과

방법	FFHQ P-IDS (%)	FFHQ U-IDS (%)	FFHQ FID	Places2 P-IDS (%)	Places2 U-IDS (%)	Places2 FID
RFR (official)	0.0 pm 0.0	0.0 pm 0.0	48.7 pm 0.5	0.3 pm 0.0	4.6 pm 0.0	49.6 pm 0.2
DeepFillv2 (official)	0.0 pm 0.0	0.1 pm 0.0	83.5 pm 0.6	0.8 pm 0.0	8.4 pm 0.0	30.6 pm 0.2
DeepFillv2 (retrained)	0.9 pm 0.1	8.6 pm 0.2	17.4 pm 0.4	1.4 pm 0.0	11.4 pm 0.0	22.1 pm 0.1
Ours	16.6 pm 0.3	29.4 pm 0.3	3.7 pm 0.0	13.3 pm 0.1	27.4 pm 0.1	7.9 pm 0.0

공변조 GAN은 최첨단 방법과 비교해 자유 형식 이미지 완성에서 우수한 품질과 다양성을 달성한다.
공변조는 확률성을 보존하고 고정 입력 및 마스크에서도 다양한 출력물을 생성한다.
P-IDS/U-IDS 지표는 소량 샘플에서 수렴하고 인간의 선호도와 잘 일치하며, FID/KID보다 강건성과 민감도 측면에서 우수하다.
이 방법은 edges-to-photos 및 COCO-Stuff 레이블-대-이미지 합성 같은 이미지-투-이미지 변환 작업으로 일반화된다.
소거 연구에서 공변조가 일반적인(vanilla) 및 순수 조건적 모듈레이션보다 우수하다는 것이 확인되며, 특히 큰 누락 영역에서 두드러진다.
FFHQ 및 Places2에서 본 방법은 P-IDS/U-IDS 및 FID에서 모두 우수한 정량적 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.