QUICK REVIEW

[논문 리뷰] Self-Attention Generative Adversarial Networks

Han Zhang, Ian Goodfellow|arXiv (Cornell University)|2018. 05. 21.

Generative Adversarial Networks and Image Synthesis인용 수 2,202

한 줄 요약

GAN에 자체 주의(Self-Attention)를 도입해 이미지의 장거리 의존성을 모델링하고, spectral normalization과 TTUR로 훈련을 안정화하며, ImageNet 클래스 조건부 생성에서 최첨단 성능을 달성합니다.

ABSTRACT

In this paper, we propose the Self-Attention Generative Adversarial Network (SAGAN) which allows attention-driven, long-range dependency modeling for image generation tasks. Traditional convolutional GANs generate high-resolution details as a function of only spatially local points in lower-resolution feature maps. In SAGAN, details can be generated using cues from all feature locations. Moreover, the discriminator can check that highly detailed features in distant portions of the image are consistent with each other. Furthermore, recent work has shown that generator conditioning affects GAN performance. Leveraging this insight, we apply spectral normalization to the GAN generator and find that this improves training dynamics. The proposed SAGAN achieves the state-of-the-art results, boosting the best published Inception score from 36.8 to 52.52 and reducing Frechet Inception distance from 27.62 to 18.65 on the challenging ImageNet dataset. Visualization of the attention layers shows that the generator leverages neighborhoods that correspond to object shapes rather than local regions of fixed shape.

연구 동기 및 목표

복잡한 이미지에서 긴 거리 의존성과 글로벌 구조를 포착하는 데 있어 컨볼루션 GAN의 한계에서 동기 부여.
글로벌 상호 작용을 가능하게 하는 self-attention 메커니즘을 제안하여 생성자와 판별기 모두의 특징 맵 간의 글로벌 상호 작용을 가능하게 한다.
생성자와 판별기 모두에 대해 spectral normalization을 적용하고 두 차수 업데이트 규칙(TTUR)을 도입하여 GAN 훈련을 안정화한다.
ImageNet에서 SAGAN을 평가하여 이전 GAN들보다 향상된 생성 품질과 분포 유사성을 보여준다.

제안 방법

장거리 의존성을 모델링하기 위해 모든 공간 위치의 특징들의 가중합을 계산하는 self-attention 모듈을 도입한다.
attentions를 생성하기 위한 f, g, h 공간을 만들고 s_ij = f(x_i)^T g(x_j)로 주의 가중치를 계산하며, y_i = gamma o_i + x_i로 출력이 주의된 특징들을 집계하도록 한다.
생성자와 판별기에 주의 모듈을 배치하여 생성 이미지의 глоб적 일관성과 실제-가짜 평가의 글로벌 일관성을 강화한다.
Lipschitz 상수와 훈련 역학을 안정화하기 위해 생성자와 판별기에 모두 spectral normalization을 적용한다.
정규화된 판별기가 사용될 때 수렴성을 개선하기 위해 생성자와 판별기에 불균형 학습률을 갖는 TTUR을 채용한다.
제약된 판별기를 사용할 때 아이러브-적합한 대립 손실(hint)과 조건부 배치 정규화(생성기에서) 및 판별기의 프로젝션을 조건화 메커니즘으로 사용한다.

실험 결과

연구 질문

RQ1GAN 아키텍처에 자체 주의(self-attention)를 통합하는 것이 장거리 의존성과 글로벌 이미지 구조 모델링을 개선하는가?
RQ2제너레이터에 대한 spectral normalization을 판별기 외에도 적용하는 것이 GAN 훈련의 안정성과 샘플 품질에 어떤 영향을 주는가?
RQ3TTUR이 정규화된 판별기를 사용할 때 GAN 훈련에 유익한가?

주요 결과

자체 주의는 이미지 합성 품질을 향상시키며 SAGAN은 베이스라인보다 더 높은 Inception 점수와 더 낮은 FID를 달성한다.
중간에서 고해상도 피처 맵(예: 32x32, 64x64)에서의 주의 연결이 매우 낮은 해상도 맵에서의 주의보다 더 나은 성능을 낸다.
자체 주의 블록은 동일한 잔차 블록보다 장거리 의존성 모델링에 우수하며 특히 복잡한 기하학적 구조에서 두드러진다.
자체 주의와 안정화 기술을 갖춘 SAGAN은 ImageNet에서 Inception Score 52.52, FID 18.65를 달성해 이전 연구를 능가한다.
시각화는 주의가 공간적 근접성뿐 아니라 의미상 일관된 객체 부분에 집중되어 개처럼 다리 같은 구조를 모델링할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.