[논문 리뷰] Patch-Based Image Inpainting with Generative Adversarial Networks
Demir와 Unal은 PGGAN을 제안한다, 전역(G-GAN)과 패치 기반(PatchGAN) 판별기를 공유된 초기 층으로 결합한 GAN 기반 인페인팅 모델로, 전역 구조와 로컬 질감을 포착하여 대형 구멍의 고품질 인페인팅을 제공한다.
Area of image inpainting over relatively large missing regions recently advanced substantially through adaptation of dedicated deep neural networks. However, current network solutions still introduce undesired artifacts and noise to the repaired regions. We present an image inpainting method that is based on the celebrated generative adversarial network (GAN) framework. The proposed PGGAN method includes a discriminator network that combines a global GAN (G-GAN) architecture with a patchGAN approach. PGGAN first shares network layers between G-GAN and patchGAN, then splits paths to produce two adversarial losses that feed the generator network in order to capture both local continuity of image texture and pervasive global features in images. The proposed framework is evaluated extensively, and the results including comparison to recent state-of-the-art demonstrate that it achieves considerable improvements on both visual and quantitative evaluations.
연구 동기 및 목표
- 전역 이미지 구조와 로컬 질감 세부 정보를 모두 포착하여 대형 누락 영역에서 인페인팅 품질을 개선하도록 동기를 부여합니다.
- 공유 경로와 분리 경로를 가진 글로벌 GAN과 PatchGAN을 결합한 판별기를 제안합니다.
- 확장된 합성(dilated) 컨볼루션과 보간 컨볼루션을 사용하여 텍스처 합성을 개선하고 인공물(아티팩트)을 감소시킵니다.
- 구성 요소의 기여도를 이해하고 최첨단 방법들과 비교하기 위한 제거 연구(ablation study)를 수행합니다.
제안 방법
- 다운샘플링, 잔차 블록, 업샘플링이 포함된 ResNet 기반 생성기를 사용합니다; 확장된 컨볼루션(dilated convolutions)과 보간 컨볼루션을 활용하여 수용 영역을 확장하고 체커보드 아티팩트를 피합니다.
- PGGAN 설계: G-GAN 경로와 PatchGAN 경로에 대해 초기 층을 공유하는 판별기를 설계하고, 이후 전체 이미지 실제성과 로컬 패치 현실성의 두 출력으로 분리됩니다.
- 결합 손실로 학습: 재구성 손실(L1), g_adv(G-GAN 경로), p_adv(PatchGAN 경로)가 포함되며 전체 손실에서 가중치로 균형을 맞춥니다.
- 세 가지 손실 구성요소(L_rec = L1 거리, L_GAN, L_pGAN)를 도입하고 Adam으로 최적화합니다.
- 256x256 및 512x512 크기의 이미지로 Paris Street View, Google Street View, Places 데이터셋에서 평가합니다.
실험 결과
연구 질문
- RQ1전역 이미지 리얼리즘과 패치 수준 텍스처 현실감을 결합하면 대형 누락 영역에서 인페인팅 품질이 향상될 수 있을까요?
- RQ2공유된 조기 층과 이중 적대 경로가 글로벌 일관성과 로컬 텍스처를 더 잘 강제하는가?
- RQ3확장된/보간 컨볼루션이 텍스처 합성 및 인페인팅의 인공물 감소에 미치는 영향은 무엇인가?
- RQ4PGGAN이 정량적 지표와 지각 품질 측면에서 최첨단 인페인팅 방법들과 어떻게 비교되는가?
주요 결과
| 방법 | L1 손실 | L2 손실 | PSNR (dB) | SSIM |
|---|---|---|---|---|
| CE [25] | 6.21 | 1.34 | 18.12 | 0.838 |
| GLGAN [11] | 5.82 | 2.33 | 18.28 | 0.863 |
| PGGAN-DRes | 5.54 | 1.19 | 19.03 | 0.866 |
| PGGAN-Res | 5.46 | 1.2 | 18.92 | 0.865 |
| NPS [34] | 10.01 | 2.21 | 18.0 | - |
| PGGAN-DRes | 5.42 | 1.16 | 18.9 | 0.884 |
- PGGAN은 256x256 파리 스트리트 뷰에서 CE 및 GLGAN보다 더 나은 PSNR과 SSIM을 달성하고 L1/L2 손실은 더 낮다.
- 256x256 Paris Street View에서 PGGAN-DRes 및 PGGAN-Res는 PSNR와 SSIM에서 CE와 GLGAN을 능가하며 재구성 오차도 더 낮다.
- 512x512 Paris Street View에서 PGGAN-DRes는 NPS를 능가하고 더 낮은 L1/L2 손실과 더 높은 PSNR 및 SSIM을 달성한다.
- 지각 평가에서 PGGAN 변형이 CE 및 GLGAN보다 우수하여 보간 결과의 자연스러운 느낌이 향상되었음을 시사한다.
- 절단 연구에서 G-GAN과 PatchGAN 판별기를 결합하는 것이 각각 단독으로 사용할 때보다 시각적으로나 정량적으로 우수한 결과를 낳는 것으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.