QUICK REVIEW

[논문 리뷰] Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature Equalizations

Hongyu Liu, Bin Jiang|arXiv (Cornell University)|2020. 07. 14.

Generative Adversarial Networks and Image Synthesis참고 문헌 39인용 수 28

한 줄 요약

이 논문은 이미지 인painting을 위한 상호형 인코더-디코더 네트워크를 제안하며, 얕은 층의 특징을 텍스처에, 깊은 층의 특징을 구조에 활용하여 구조와 텍스처를 동시에 복원한다. 이는 이중성 전파 활성화 함수와 채널 재가중을 도입하여 구조 및 텍스처 브랜치 간의 특징을 균형화함으로써 블러와 잡음 현상을 크게 감소시키며, Paris StreetView, Place2, CelebA 등의 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Deep encoder-decoder based CNNs have advanced image inpainting methods for hole filling. While existing methods recover structures and textures step-by-step in the hole regions, they typically use two encoder-decoders for separate recovery. The CNN features of each encoder are learned to capture either missing structures or textures without considering them as a whole. The insufficient utilization of these encoder features limit the performance of recovering both structures and textures. In this paper, we propose a mutual encoder-decoder CNN for joint recovery of both. We use CNN features from the deep and shallow layers of the encoder to represent structures and textures of an input image, respectively. The deep layer features are sent to a structure branch and the shallow layer features are sent to a texture branch. In each branch, we fill holes in multiple scales of the CNN features. The filled CNN features from both branches are concatenated and then equalized. During feature equalization, we reweigh channel attentions first and propose a bilateral propagation activation function to enable spatial equalization. To this end, the filled CNN features of structure and texture mutually benefit each other to represent image content at all feature levels. We use the equalized feature to supplement decoder features for output image generation through skip connections. Experiments on the benchmark datasets show the proposed method is effective to recover structures and textures and performs favorably against state-of-the-art approaches.

연구 동기 및 목표

딥 러닝 기반 이미지 인painting 방법에서 복원된 구조와 텍스처 간의 일관성 문제를 해결하기 위해.
구조와 텍스처 특징을 별도로 또는 순차적으로 처리하는 대신, 동시에 모델링하여 시각적 품질을 향상시키기 위해.
CNN 특징 공간에서의 특징 오차정렬로 인해 발생하는 구멍 영역 주변의 블러와 잡음 현상을 줄이기 위해.
새로운 특징 균형화 메커니즘을 통해 구멍 경계 및 구멍 영역 내 특징의 일관성을 향상시키기 위해.

제안 방법

공유된 인코더를 사용하며, 얕은 층은 텍스처 특징을, 깊은 층은 구조 특징을 전용 브랜치로 처리한다.
텍스처 및 구조 브랜치 양쪽에 다중 척도의 구멍 채우기 기법을 적용하며, 증가하는 커널 크기를 가진 세 개의 부분 컨볼루션 스트림을 사용한다.
양 브랜치의 특징을 연결하고, 자기 주의 메커니즘을 통한 채널 재가중을 통해 브랜치 간의 주의 맵을 정렬한다.
이중성 전파 활성화(BPA) 함수를 제안하여 공간 일관성을 강제한다: 전역 전파로 경계 일관성을 확보하고, 국소 연산으로 유사성 유지.
균형화된 특징을 융합하여 스킵 연결을 통해 디코더로 전달함으로써, 모든 특징 수준에서 복원 품질을 향상시킨다.
실제감과 구조 일관성을 향상시키기 위해, 전반적인 학습을 인식 손실 및 적대적 손실을 함께 사용하여 엔드 투 엔드로 수행한다.

실험 결과

연구 질문

RQ1CNN 특징 공간에서 구조와 텍스처 특징을 공동으로 모델링하면 이미지 인painting 품질이 향상되는가?
RQ2구조 및 텍스처 브랜치 간의 특징 균형화가 시각적 일관성 향상과 잡음 감소에 어떤 영향을 미치는가?
RQ3제안된 이중성 전파 활성화 함수가 국소 주의 메커니즘보다 국소 및 전역 특징 일관성을 더 잘 유지하는가?
RQ4구조 및 텍스처 전용 브랜치가 최종 인painting 성능에 기여하는 정도는 어느 정도인가?

주요 결과

Paris StreetView 데이터셋에서 제안된 방법은 프레셰 인ception 거리(FID) 25.10을 기록하여, 균형화 없이 학습한 기준 모델(29.11)과 비교해 유의미하게 뛰어나며, CSA와 같은 최신 기술(29.8%)보다도 우수하다.
CelebA에서의 인간 평가 결과, 제안된 방법은 가장 현실적인 결과로 56.4%의 표를 확보하여, CSA(29.6%)와 GC(5.3%)를 모두 앞서며 우수성을 입증했다.
절단 실험 결과, 텍스처 브랜치를 제거할 경우 세밀한 디테일 손실이 발생하고, 구조 브랜치를 제거할 경우 구조적 요소가 누락되는 것으로 나타나, 두 브랜치 모두 필수적임을 확인했다.
특징 균형화 메커니즘, 특히 이중성 전파 활성화 함수는 파리 스트리트뷰 및 플레이스2에서의 정성적 비교를 통해 눈에 띄는 잡음과 블러 감소를 입증했다.
Place2 데이터셋에서 제안된 방법은 FID 21.26을 기록하여, 균형화 없이 학습한 기준 모델(29.11)을 뛰어넘으며 특징 균형화의 효과를 입증했다.
국소 집합과 특징 균형화의 조합은 성능을 더욱 향상시키며, FID가 24.07에서 21.26으로 감소하여 상호 보완적인 이점을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.