Skip to main content
QUICK REVIEW

[논문 리뷰] Generative Image Inpainting with Contextual Attention

Jiahui Yu, Zhe Lin|arXiv (Cornell University)|2018. 01. 24.
Generative Adversarial Networks and Image Synthesis참고 문헌 37인용 수 214
한 줄 요약

두 단계 생성형 인페인팅 네트워크를 도입하고, 멀리 배경 패치를 명시적으로 차용하는 새로운 컨텍추얼 어텐션 계층을 도입하여 얼굴, 질감, 자연 이미지 전반에서 누락 영역을 채워 고품질의 결과를 달성합니다.

ABSTRACT

Recent deep learning based approaches have shown promising results for the challenging task of inpainting large missing regions in an image. These methods can generate visually plausible image structures and textures, but often create distorted structures or blurry textures inconsistent with surrounding areas. This is mainly due to ineffectiveness of convolutional neural networks in explicitly borrowing or copying information from distant spatial locations. On the other hand, traditional texture and patch synthesis approaches are particularly suitable when it needs to borrow textures from the surrounding regions. Motivated by these observations, we propose a new deep generative model-based approach which can not only synthesize novel image structures but also explicitly utilize surrounding image features as references during network training to make better predictions. The model is a feed-forward, fully convolutional neural network which can process images with multiple holes at arbitrary locations and with variable sizes during the test time. Experiments on multiple datasets including faces (CelebA, CelebA-HQ), textures (DTD) and natural images (ImageNet, Places2) demonstrate that our proposed approach generates higher-quality inpainting results than existing ones. Code, demo and models are available at: https://github.com/JiahuiYu/generative_inpainting.

연구 동기 및 목표

  • 이미지 인페인팅에서 더 나은 장거리 컨텍추얼 모델링의 필요성을 제고한다.
  • 멀리 있는 영역으로부터 정보를 차용하기 위한 컨텍추얼 어텐션 모듈을 갖춘 통합적 피드포워드 네트워크를 제안한다.
  • 향상된 손실 함수와 두 단계의 거칠은-정밀(coarse-to-fine) 아키텍처로 학습의 안정성과 속도를 개선한다.
  • CelebA, CelebA-HQ, DTD, ImageNet, Places2를 포함한 다양한 데이터셋에 적용 가능성을 보인다.

제안 방법

  • 거칠은 단계가 누락된 콘텐츠를 재구성하고, 정교화 단계가 결과를 개선하는 두 단계의 거칠은-정밀 네트워크를 제안한다.
  • 코사인 유사도, 소프트맥스 가중치, 역합성(deconvolution)을 사용하여 전경 패치를 배경 패치에 매칭하고 패치를 재구성하는 새로운 컨텍스추얼 어텐션 계층을 도입한다.
  • 학습 안정성과 전역 및 국소 충실도를 보장하기 위해 재구성 손실과 함께 전역/국소 두 가지 Wasserstein GAN 손실을 사용한다.
  • 구멍 중심부 근처의 과도한 페널티를 줄이고 학습을 촉진하기 위해 공간적으로 할인된 재구성 손실을 구현한다.
  • 패치 샘플링/스트라이드 및 입력의 선택적 다운스케일링을 포함한 컨텍스추얼 어텐션 메커니즘에 대한 메모리 효율적 전략을 채택한다.
  • 재구성 손실과 이중 GAN 목표의 조합으로 엔드투엔드로 학습하여 수렴 속도와 시각적 품질을 향상시킨다.

실험 결과

연구 질문

  • RQ1컨텍스추얼 어텐션 메커니즘이 멀리 있는 배경 패치를 명시적으로 차용하여 인페인팅 품질을 향상시킬 수 있는가?
  • RQ2전역 및 국소 적대적 감독을 갖춘 두 단계의 거칠은-정밀 생성 프레임워크가 이전의 인페인팅 모델을 능가하는가?
  • RQ3공간적으로 할인된 재구성 손실과 어텐션 기반 융합이 학습 안정성 및 최종 이미지 충실도에 어떤 영향을 미치는가?
  • RQ4제안된 방법이 얼굴, 질감, 자연 풍경과 같은 다양한 데이터 도메인에서 효과적인가?

주요 결과

  • 컨텍스추얼 어텐션이 포함된 전체 모델은 여러 데이터셋에 대해 기본 모델보다 더 현실적인 인페인팅과 더 적은 인공물을 생성한다.
  • 어텐션 맵은 각 전경 픽셀을 채우는 데 가장 관련 있는 배경 패치를 시각화하여 컨텍스추얼 차용의 성공을 나타낸다.
  • Places2에서의 정량적 결과는 다음과 같이 나타난다: PatchMatch 16.1% ell1, 3.9% ell2, PSNR 16.62, TV 25.0%; Baseline 9.4% ell1, 2.4% ell2, PSNR 18.15, TV 25.7%; 우리의 방법 8.6% ell1, 2.1% ell2, PSNR 18.91, TV 25.3%.
  • 제안된 두 단계 네트워크와 컨텍스추얼 어텐션은 학습을 빠르게 하고 이미지 블렌딩과 같은 후처리 필요성을 줄인다.
  • 모델은 CelebA, CelebA-HQ, DTD, ImageNet, Places2 데이터셋에서 우수한 일반화 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.