Skip to main content
QUICK REVIEW

[논문 리뷰] Thinking inside the Convolution for Image Inpainting: Reconstructing Texture via Structure under Global and Local Side

Haipeng Liu, Yang Wang|arXiv (Cornell University)|2026. 02. 03.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

본 논문은 인코더 다운샘플링 중 구조 특징 맵을 통해 텍스처 특징 맵을 재구성하고, 전역/지역 정규화/역정규화 및 교차 계층 균형 모듈로 업샘플링을 유도하여, 256–512 이미지에서 최첨단 인페이팅 성능을 달성한다.

ABSTRACT

Image inpainting has earned substantial progress, owing to the encoder-and-decoder pipeline, which is benefited from the Convolutional Neural Networks (CNNs) with convolutional downsampling to inpaint the masked regions semantically from the known regions within the encoder, coupled with an upsampling process from the decoder for final inpainting output. Recent studies intuitively identify the high-frequency structure and low-frequency texture to be extracted by CNNs from the encoder, and subsequently for a desirable upsampling recovery. However, the existing arts inevitably overlook the information loss for both structure and texture feature maps during the convolutional downsampling process, hence suffer from a non-ideal upsampling output. In this paper, we systematically answer whether and how the structure and texture feature map can mutually help to alleviate the information loss during the convolutional downsampling. Given the structure and texture feature maps, we adopt the statistical normalization and denormalization strategy for the reconstruction guidance during the convolutional downsampling process. The extensive experimental results validate its advantages to the state-of-the-arts over the images from low-to-high resolutions including 256*256 and 512*512, especially holds by substituting all the encoders by ours. Our code is available at https://github.com/htyjers/ConvInpaint-TSGL

연구 동기 및 목표

  • 합성곱 다운샘플링 과정에서 구조 특징 맵과 텍스처 특징 맵의 정보 손실을 동기부여하고 정량화한다.
  • 전역 및 로컬 측면에서 구조 특징 맵으로부터 텍스처 특징 맵을 재구성하기 위한 정규화/역정규화 프레임워크를 제안한다.
  • 디코더의 업샘플링을 개선하기 위해 글로벌 및 로컬 잔차 구조 전략과 교차 계층 균형 모듈을 도입한다.
  • 구조를 통한 텍스처 재구성이 기본 방법과 비교하여 의미적 영역의 보존을 더 잘 수행하고 텍스처 맵 손실을 낮춘다는 것을 보여준다.

제안 방법

  • 구조에는 부분 컨볼루션을 사용하고 텍스처에는 Transformer-보강 경로를 사용하는 입력으로부터 다중 스케일의 구조 특징 맵과 텍스처 특징 맵을 추출한다.
  • 공간적으로 적응적 정규화/역정규화를 적용하여 계층 간 텍스처/구조 맵을 융합하고, 식 Eq. 6에서 전역 및 로컬 통계(평균/분산)를 통해 구조로부터 텍스처를 재구성한다.
  • 전역 텍스처 특징 맵은 전역 구조 맵을 통한 재구성의 이점을 얻고, 로컬 텍스처 맵은 로컬 잔차 구조 맵의 이점을 얻으며, 업샘플링을 위한 교차 계층 균형이 작용한다.
  • 두 개의 정규화 스트림(전역 및 로컬)을 사용하여 텍스처 재구성을 이끌고, 재생된 텍스처 특징을 이후 다운샘플링 및 디코더 입력에 융합한다.
Figure 1 : CTSDG [ 5 ] suffers from the non-ideal inpainting results due to mutual guidance between the global structure and texture feature map in decoder, where the sparse structure feature map is broken down via the fusion from the texture (b) feature map, while the texture feature map receives n
Figure 1 : CTSDG [ 5 ] suffers from the non-ideal inpainting results due to mutual guidance between the global structure and texture feature map in decoder, where the sparse structure feature map is broken down via the fusion from the texture (b) feature map, while the texture feature map receives n

실험 결과

연구 질문

  • RQ1합성곱 다운샘플링 과정에서 구조 특징 맵이 텍스처 특징 맵 손실을 완화할 수 있는가?
  • RQ2가장 좋은 재구성을 제공하는 정규화/역정규화 전략(전역 대 로컬)과 구조/텍스처 쌍은 무엇인가?
  • RQ3전역 및 로컬 잔차 구조를 교차 계층 균형 모듈과 결합하면 스케일 간 인페이팅 성능이 향상되는가?
  • RQ4제안된 방법이 256×256 및 512×512 이미지에 적용될 때 최첨단 인코더와 어떻게 비교되는가?

주요 결과

  • 구조 특징 맵을 통해 텍스처 특징 맵을 재구성하는 것이 역방향보다 텍스처 특징 맵 손실을 더 효과적으로 줄여 영역 분리 및 의미적 보존을 돕는다.
  • 전역 텍스처 재구성과 로컬 잔차 구조 재구성이 테스트된 변형들 중 최상의 성능을 보인다.
  • 교차 계층 균형 모듈은 글로벌 vs. 로컬 잔차 구조 특징을 그룹화하여 업샘플링 및 디코더 안내를 개선한다.
  • 이 방법은 최첨단 방법들보다 우수한 결과를 달성하며, baseline 간 인코더를 대체해도 효과가 유지되어 256×256 및 512×512 입력에서 작동한다.
Figure 2 : Illustration of our proposed overall pipeline. Our basic idea is to reconstruct the texture feature map via the structure feature map under both global and local side during the convolutional downsampling process from encoder (II), which is achieved via the statistical normalization and d
Figure 2 : Illustration of our proposed overall pipeline. Our basic idea is to reconstruct the texture feature map via the structure feature map under both global and local side during the convolutional downsampling process from encoder (II), which is achieved via the statistical normalization and d

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.