QUICK REVIEW

[논문 리뷰] Image Inpainting using Block-wise Procedural Training with Annealed Adversarial Counterpart

Chao Yang, Yuhang Song|arXiv (Cornell University)|2018. 03. 23.

Generative Adversarial Networks and Image Synthesis참고 문헌 17인용 수 24

한 줄 요약

이 논문은 조건부 GAN을 사용한 딥 이미지 인painting을 위한 새로운 블록 단위 점진적 훈련(BPT) 및 적대적 손실 점차 감소(ALA) 프레임워크를 제안한다. 깊이 있는 네트워크를 점진적으로 훈련하고 적대적 훈련을 안정화시킴으로써, 이 방법은 인painting, 하모니제이션, 가이드드 에디팅에서 최신 기술 수준의 성능을 달성하며 잡음과 왜곡을 줄이고 인지적 품질을 향상시킨다.

ABSTRACT

Recent advances in deep generative models have shown promising potential in image inpanting, which refers to the task of predicting missing pixel values of an incomplete image using the known context. However, existing methods can be slow or generate unsatisfying results with easily detectable flaws. In addition, there is often perceivable discontinuity near the holes and require further post-processing to blend the results. We present a new approach to address the difficulty of training a very deep generative model to synthesize high-quality photo-realistic inpainting. Our model uses conditional generative adversarial networks (conditional GANs) as the backbone, and we introduce a novel block-wise procedural training scheme to stabilize the training while we increase the network depth. We also propose a new strategy called adversarial loss annealing to reduce the artifacts. We further describe several losses specifically designed for inpainting and show their effectiveness. Extensive experiments and user-study show that our approach outperforms existing methods in several tasks such as inpainting, face completion and image harmonization. Finally, we show our framework can be easily used as a tool for interactive guided inpainting, demonstrating its practical value to solve common real-world challenges.

연구 동기 및 목표

고품질 이미지 인painting을 위한 매우 깊은 생성 모델 훈련에서의 불안정성과 수렴 불량 문제를 해결하기 위해.
생성된 이미지의 구멍 주변에서 눈에 띄는 잡음과 인지적 불일치를 줄이기 위해.
이미지 하모니제이션 및 가이드드 인painting 작업에서 일반화 능력과 현실감을 향상시키기 위해.
안정성이나 품질을 희생시키지 않고 더 깊은 네트워크를 허용하는 훈련 체계를 개발하기 위해.

제안 방법

각 단계를 수렴할 때까지 훈련한 후 더 깊이를 추가하는 블록 단위 점진적 훈련(BPT)을 도입하여 생성자 네트워크에 잔차 블록을 점진적으로 추가한다.
훈련 중에 점차적으로 적대적 손실 가중치를 감소시켜 노이즈와 잡음을 억제하는 적대적 손실 점차 감소(ALA)를 활용한다.
사전 훈련된 네트워크의 특징을 비교하는 패치 인지적 손실(PPL)을 제안하여 ℓ₂ 손실에 비해 구조적 및 텍스처 일관성을 향상시킨다.
다중 척도 패치 적대적 손실(MSPAL)을 도입하여 다중 척도에서 현실적인 텍스처 세부 정보를 강화한다.
생성자는 마스크된 입력을 받아 완성된 이미지를 생성하고, 구분자는 진짜와 생성된 패치를 구분하도록 훈련되는 조건부 GAN 프레임워크를 사용한다.
공통 인코더와 작업별 전용 헤드를 갖춘 통합 네트워크를 사용하여 인painting과 하모니제이션을 동시에 훈련하는 프레임워크를 확장한다.

실험 결과

연구 질문

RQ1점진적 블록 단위 훈련 체계는 매우 깊은 조건부 GAN의 훈련을 이미지 인painting에서 안정화시킬 수 있는가?
RQ2적대적 손실 점차 감소는 고해상도 이미지 생성에서 잡음과 인지적 품질을 향상시키는가?
RQ3패치 인지적 손실과 다중 척도 패치 적대적 손실은 인painting 품질에서 ℓ₂ 손실과 표준 GAN 손실에 비해 어떻게 비교되는가?
RQ4제안된 프레임워크는 상호작용적 가이드드 인painting 및 이미지 하모니제이션 작업으로 효과적으로 확장될 수 있는가?
RQ5정량적 지표와 사용자 평가에서 기존 최신 기술 수준의 접근 방식에 비해 이 방법은 어느 정도 뛰어나게 성능을 내는가?

주요 결과

제안된 BPT와 ALA 훈련 체계는 이전 방법보다 더 깊은 생성자 네트워크를 훈련시킬 수 있게 하여 더 높은 품질의 현실적인 이미지 완성 결과를 도출한다.
PPL과 MSPAL 손실의 조합은 정량적 및 정성적 평가를 통해 ℓ₂ 손실과 표준 GAN 손실에 비해 인지적 품질과 선명도를 크게 향상시킨다.
사용자 평가에서 인간 평가자들은 제안된 방법의 결과가 [12]와 [23]의 결과보다 현실감, 일관성, 잡음 부재 측면에서 더 선호됨을 확인했다.
표준 인painting 벤치마크에서 얼굴 완성 및 대규모 이미지 하모니제이션 작업 모두 최신 기술 수준의 성능을 달성했다.
단지 경계 상자 입력만으로도 상호작용적 가이드드 인painting을 성공적으로 지원하여 정밀한 세그멘테이션 없이도 현실적인 객체 조합이 가능했다.
인painting과 하모니제이션을 동시에 훈련하는 방식은 [23]에 비해 특히 색상 일관성과 시각적 현실감 측면에서 열등한 결과를 내는 것을 방지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.