QUICK REVIEW

[논문 리뷰] Image Fine-grained Inpainting

Hui Zheng, Jie Li|arXiv (Cornell University)|2020. 02. 07.

Generative Adversarial Networks and Image Synthesis참고 문헌 40인용 수 39

한 줄 요약

본 연구는 DMFN을 도입합니다, 하나의 단계 인페인팅 모델로 Dense Multi-Scale Fusion Blocks와 새로운 손실(self-guided regression 및 geometrical alignment)을 활용하여 얼굴, 건물 및 풍경 전반에 고충실도이고 의미적으로 일관된 결과를 생성합니다.

ABSTRACT

Image inpainting techniques have shown promising improvement with the assistance of generative adversarial networks (GANs) recently. However, most of them often suffered from completed results with unreasonable structure or blurriness. To mitigate this problem, in this paper, we present a one-stage model that utilizes dense combinations of dilated convolutions to obtain larger and more effective receptive fields. Benefited from the property of this network, we can more easily recover large regions in an incomplete image. To better train this efficient generator, except for frequently-used VGG feature matching loss, we design a novel self-guided regression loss for concentrating on uncertain areas and enhancing the semantic details. Besides, we devise a geometrical alignment constraint item to compensate for the pixel-based distance between prediction features and ground-truth ones. We also employ a discriminator with local and global branches to ensure local-global contents consistency. To further improve the quality of generated images, discriminator feature matching on the local branch is introduced, which dynamically minimizes the similarity of intermediate features between synthetic and ground-truth patches. Extensive experiments on several public datasets demonstrate that our approach outperforms current state-of-the-art methods. Code is available at https://github.com/Zheng222/DMFN.

연구 동기 및 목표

큰 영역에서 미세한 질감과 의미론적 정확성을 가진 이미지 인페인팅의 개선 필요성을 제시한다.
수용 필드를 효율적으로 확장하기 위해 dense multi-scale fusion이 적용된 하나의 단계 생성기 제안.
의미적 충실도와 공간 정렬을 향상시키기 위한 자기 지도 회귀 손실과 기하학적 정렬 손실 도입.
훈련의 안정성과 품질을 개선하기 위해 로컬-글로벌 초점과 특징 매칭을 갖춘 두 분기 판별기 도입.
얼굴, 건물 및 풍경을 포함한 다수의 데이터셋에서 최첨단 성능 입증.

제안 방법

다양한 속도의 네 가지 확장된 합성곱으로부터의 특징을 융합하여 수용 필드를 촘촘히 확장하는 dense multi-scale fusion blocks (DMFB) 제안.
MAE, 자기 지도 회귀, VGG 특징 매칭, 판별기 특징 매핑, 적대적 손실 및 정렬 손실을 포함한 손실의 조합으로 엔드-투-엔드로 학습되는 하나의 단계 생성기 사용.
정규화된 불일치 맵을 사용하여 VGG 특징의 가중치를 재조정하고 불확실한 영역에 집중하는 자기 지도 회귀 손실 도입.
출력과 그라운드트루트 간에 고수준 특징 중심(VGG 활성화를 통해)을 정렬하는 기하학적 정렬 제약 도입.
글로벌 일관성과 로컬 사실감을 강제하기 위해 두 분기의 판별기(global 및 local)를 갖춘 Relativistic Average GAN (RaGAN) 채택.
Paris Street View, Places2, CelebA-HQ, FFHQ 데이터셋에서 학습 및 평가하고 CA, GMCNN, PICNet, PENNet과 비교.

실험 결과

연구 질문

RQ1dense multi-scale fusion을 갖춘 하나의 단계 인페인팅 모델이 기존 방법에 비해 더 우수한 전역 구조와 국소 질감 충실도를 달성할 수 있는가?
RQ2자기 지도 회귀 및 기하학적 정렬 손실이 인페인팅 영역의 의미 일관성과 공간 정렬을 향상시키는가?
RQ3로컬 특징 매칭을 가진 두 분기의 RaGAN 판별기가 리얼리즘과 인공물 감소에 어떤 영향을 미치는가?
RQ4표준 인페인팅 벤치마크(LPIPS, PSNR, SSIM)에서 최첨단 방법과 비교했을 때의 정량적 이득은 무엇인가?
RQ5제안된 방법이 얼굴, 건물 및 자연 풍경과 같은 다양한 콘텐츠에서 효과적인가?

주요 결과

방법	Paris street view LPIPS	Paris street view PSNR	Paris street view SSIM	Places2 LPIPS	Places2 PSNR	Places2 SSIM	CelebA-HQ LPIPS	CelebA-HQ PSNR	CelebA-HQ SSIM	FFHQ LPIPS	FFHQ PSNR	FFHQ SSIM
CA	N/A	0.1524	21.32	0.0724	24.13	0.8661	N/A	N/A	N/A	N/A	N/A	N/A
GMCNN	0.1243	24.38	0.8444	0.1829	19.51	0.7817	0.0509	25.88	0.8879	N/A	N/A	N/A
PICNet	0.1263	23.79	0.8314	0.1622	20.70	0.7931	N/A	N/A	N/A	N/A	N/A	N/A
PENNet	N/A	N/A	N/A	0.2384	21.93	0.7586	N/A	N/A	N/A	N/A	N/A	N/A
DMFN (Ours)	0.1018	25.00	0.8563	0.1188	22.36	0.8194	0.0460	26.50	0.8932	0.0457	26.49	0.8985

DMFN은 Paris Street View, Places2, CelebA-HQ, FFHQ에서 CA, GMCNN, PICNet, PENNet과 비교하여 경쟁력 있거나 우수한 LPIPS, PSNR, SSIM을 달성한다.
DMFB 설계는 대형 커널 대안보다 더 촘촘하고 큰 수용 필드를 더 적은 매개변수로 제공하여 대형 구멍 인페인팅을 개선한다.
자기 지도 회귀는 가이드 맵을 통해 불확실한 영역에 학습을 집중시켜 미세한 의미 세부를 향상시킨다.
기하학적 정렬 제약은 생성된 이미지와 그라운드 트루스 간의 고수준 특징의 공간적 일치를 향상시켜 그럴듯한 구조 배치를 돕는다.
로컬-글로벌 이중 분기 판별기와 판별기 특징 매칭은 리얼리즘을 향상시키고 인공물을 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.