QUICK REVIEW

[논문 리뷰] Image Inpainting with Learnable Bidirectional Attention Maps

Chaohao Xie, Shaohui Liu|arXiv (Cornell University)|2019. 09. 03.

Generative Adversarial Networks and Image Synthesis참고 문헌 39인용 수 23

한 줄 요약

이 논문은 이미지 복원을 위한 새로운 주의 메커니즘인 유연한 이중방향 주의 맵(LBAM)을 제안한다. 이는 종합적으로 특징 재정규화와 마스크 업데이트를 엔드 투 엔드 방식으로 학습한다. 학습 가능한 정방향 및 역방향 주의 맵을 도입함으로써 U-Net 디코더는 구멍 메우기 작업에만 집중할 수 있게 되어, 파리 스트리트뷰 및 플레이스 데이터셋에서 최신 기법들에 비해 시각적 품질, 선명도, 구조적 일관성 측면에서 크게 향상된다.

ABSTRACT

Most convolutional network (CNN)-based inpainting methods adopt standard convolution to indistinguishably treat valid pixels and holes, making them limited in handling irregular holes and more likely to generate inpainting results with color discrepancy and blurriness. Partial convolution has been suggested to address this issue, but it adopts handcrafted feature re-normalization, and only considers forward mask-updating. In this paper, we present a learnable attention map module for learning feature renormalization and mask-updating in an end-to-end manner, which is effective in adapting to irregular holes and propagation of convolution layers. Furthermore, learnable reverse attention maps are introduced to allow the decoder of U-Net to concentrate on filling in irregular holes instead of reconstructing both holes and known regions, resulting in our learnable bidirectional attention maps. Qualitative and quantitative experiments show that our method performs favorably against state-of-the-arts in generating sharper, more coherent and visually plausible inpainting results. The source code and pre-trained models will be available.

연구 동기 및 목표

비정규형 구멍 처리 및 이미지 복원에서 색상 불일치와 흐림 현상을 줄이기 위한 표준 및 부분 복소(convolution)의 한계를 해결하기 위해.
부분 복소(PConv)에서 수작업으로 정의된 마스크 업데이트 및 고정된 정규화에 의존하는 문제를 해결하기 위해 이러한 과정을 엔드 투 엔드로 학습함으로써.
역방향 주의 맵을 도입하여 디코더의 효율성과 집중도를 향상시키고, 알려진 영역의 재구성 확률을 낮춤으로써.
학습 안정성과 마스크 전파를 통해 적대적 손실을 효과적으로 적용할 수 있도록 하기 위해.

제안 방법

PConv의 하드 0-1 마스크와 수작업 정규화를 대체하는 기능적인, 엔드 투 엔드로 학습 가능한 재정규화 메커니즘을 갖춘 유연한 주의 맵 모듈을 제안한다.
에코더 수준의 특징 재정규화와 마스크 업데이트를 위한 정방향 주의 맵을 도입하여, 특징 전파 중 비정규형 구멍 형상에 적응한다.
디코더에 역방향 주의 맵을 도입하여 알려진 영역에서의 특징 학습을 억제함으로써, 네트워크가 복원 구멍에만 집중하도록 유도한다.
에코더와 디코더 간의 이중방향 주의 학습을 가능하게 하기 위해, 정방향 및 역방향 주의 맵을 모두 포함한 U-Net 아키텍처를 사용한다.
주의 맵 네트워크에서 Sigmoid 또는 LeakyReLU를 활성화 함수로 사용하며, 최적의 선택을 확인하기 위해 분석 연구를 수행한다.
적대적 손실을 통합하여 인지적 품질을 향상시키며, 학습 가능한 주의 덕분에 안정적인 학습이 가능해져서 이를 실현할 수 있다.

실험 결과

연구 질문

RQ1엔드 투 엔드로 학습된 주의 맵이 부분 복소에서 수작업 마스크 업데이트 및 정규화보다 성능이 뛰어나게 되는가?
RQ2디코더에 역방향 주의 맵을 도입함으로써 구멍 메우기 집중도가 향상되고 알려진 영역의 재구성이 줄어드는가?
RQ3제안된 학습 가능한 이중방향 주의 메커니즘이 적대적 손실을 효과적으로 활용하여 더 나은 인지적 품질을 달성할 수 있는가?
RQ4비정규형 구멍에 대해 최신 기법들과 비교했을 때, 구조적 일관성과 질감의 현실감 측면에서 성능은 어떻게 되는가?

주요 결과

전체 LBAM 모델은 파리 스트리트뷰 데이터셋의 (0.4, 0.5] 구멍 크기 범위에서 PSNR 28.73과 SSIM 0.889을 기록하여 PConv 및 다른 최신 기법들을 능가한다.
사용자 연구 결과, LBAM는 63.2%의 경우에서 가장 시각적으로 타당한 결과로 선택되었으며, 이는 PConv(15.2%) 및 기타 기준 모델들에 비해 뚜렷한 승리이다.
분석 연구 결과, 학습 가능한 주의, 역방향 주의, 적절한 활성화 함수(예: ReLU)의 조합이 최적 성능을 내기 위해 필수적임을 확인하였다.
적대적 손실을 포함한 모델(Ours(w/o L_adv))는 PSNR와 SSIM가 더 높지만 시각적 품질은 낮은 편이었으며, 이는 적대적 손실이 비록 약간 낮은 지표를 보일지라도 인지적 현실감을 향상시킨다는 것을 시사한다.
시각화 결과, LBAM는 특히 디코더에서 아티팩트와 흐림 현상을 효과적으로 줄임을 확인할 수 있었으며, 이는 역방향 주의 맵이 알려진 영역 재구성을 억제하기 때문이다.
마스크 업데이트 시각화 결과, 에코더의 마스크는 계층을 거치며 점차 줄어들고, 디코더의 마스크는 알려진 영역을 줄이는 방식으로 효과적인 이중방향 적응을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.