QUICK REVIEW

[논문 리뷰] AttentionGAN: Unpaired Image-to-Image Translation using Attention-Guided Generative Adversarial Networks

Hao Tang, Hong Liu|arXiv (Cornell University)|2019. 11. 27.

Generative Adversarial Networks and Image Synthesis참고 문헌 4인용 수 41

한 줄 요약

AttentionGAN은 비정렬된 이미지 간 매핑에서 주의 집중 유도 생성기와 판별기를 도입하여 전경 중심의 변화를 가능하게 하면서 배경을 보존하고, 여러 데이터셋에서 더 날카롭고 더 사실적인 결과를 달성합니다.

ABSTRACT

State-of-the-art methods in image-to-image translation are capable of learning a mapping from a source domain to a target domain with unpaired image data. Though the existing methods have achieved promising results, they still produce visual artifacts, being able to translate low-level information but not high-level semantics of input images. One possible reason is that generators do not have the ability to perceive the most discriminative parts between the source and target domains, thus making the generated images low quality. In this paper, we propose a new Attention-Guided Generative Adversarial Networks (AttentionGAN) for the unpaired image-to-image translation task. AttentionGAN can identify the most discriminative foreground objects and minimize the change of the background. The attention-guided generators in AttentionGAN are able to produce attention masks, and then fuse the generation output with the attention masks to obtain high-quality target images. Accordingly, we also design a novel attention-guided discriminator which only considers attended regions. Extensive experiments are conducted on several generative tasks with eight public datasets, demonstrating that the proposed method is effective to generate sharper and more realistic images compared with existing competitive models. The code is available at https://github.com/Ha0Tang/AttentionGAN.

연구 동기 및 목표

변경이 구별 가능한 전경 콘텐츠에 집중되도록 함으로써 배경 보존을 유지하며 비정렬 이미지-대-이미지 번역의 개선을 동기부여한다.
추가 감독 없이도 전경 및 배경 주의를 학습할 수 있는 주의 가이드 GAN 프레임워크를 개발한다.
간단한 의미 번역과 복잡한 의미 번역을 다루기 위해 두 가지 생성 스키마(I 및 II)를 제안한다.
주기적 일관성 손실과 새로운 주의 가이드 판별기를 통해 학습을 정규화하고 학습을 안정화한다.

제안 방법

전용 주의 맵과 콘텐츠 맵을 갖춘 두 개의 주의 가이드 생성기(G와 F)를 사용하여 최종 출력을 생성한다.
스키마 I은 주의 맵과 콘텐츠 맵을 하나의 네트워크로 생성하고 입력 이미지와 맵을 융합하며 G(x)=C_y*A_y + x*(1-A_y); F(y)도 이와 유사하게 구성한다.
스키마 II는 주의 맵과 콘텐츠 맵을 각각 처리하는 서브 네트워크(G_E, G_A, G_C)를 사용하고, 여러 전경 콘텐츠 맵과 백그라운드 주의 맵을 학습하여 더 풍부하고 다중 맵 생성을 가능하게 한다(G(x) = sum_f=1^{n-1} C_y^f*A_y^f + x*A_y^b).
주의 맵과 콘텐츠 맵은 순환 일관성 손실(VIA 수정된 스키마)과 적대적 손실 하에서 함께 학습된다.
주의 가이드 판별기 D_YA와 D_XA는 주의 맵을 입력으로 받아 주의된 영역에 판별을 집중한다.
정규화에는 주의 맵에 대한 총 변화(TV) 손실과 안정적 학습을 위한 픽셀 수준의 항등 손실이 포함된다.

실험 결과

연구 질문

RQ1주의가 가이드된 GAN이 비정렬 이미지를 전경의 차별적으로 중요한 영역에 집중하여 배경을 보존하면서 번역하는 것을 학습할 수 있을까?
RQ2주목과 콘텐츠 생성을 분리하는 스키마 II가 horse-에서 zebra로 같은 복잡한 번역에서 스키마 I보다 우수한 결과를 낼까?
RQ3주의 가이드 판별기가 표준 GAN 판별기와 비교하여 번역 품질 및 결함 감소에 어떤 영향을 미칠까?
RQ4여덟 개의 공개 데이터세트가 얼굴, 자연 풍경, 예술 작품에 걸친 AttentionGAN의 일반성을 충분히 입증할까?
RQ5다중 맵 생성(전경/콘텐츠)이 번역 성능과 출력 다양성에 미치는 영향은 무엇일까?

주요 결과

AttentionGAN은 다수의 데이터셋에서 경쟁 모델보다 더 날카롭고 사실적인 이미지를 생성하며 배경 보존도 더 잘 수행한다.
주목과 콘텐츠 네트워크를 분리하고 다중 맵을 사용하는 스키마 II가 horse-to-zebra와 같은 복잡한 번역에서 스키마 I보다 우수한 성능을 보인다.
주의 가이드 판별기는 주의된 영역에 대립 게임을 집중하도록 도와 번역의 특정 변화의 충실도를 향상시킨다.
얼굴, 동물, 지도, 스타일 전이 등을 포함한 8개 데이터셋에 대한 광범위한 실험에서 주의 맵에 대해 추가 감독이 필요 없는 최첨단 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.