QUICK REVIEW

[논문 리뷰] Alias-Free Generative Adversarial Networks

Tero Karras, Miika Aittala|arXiv (Cornell University)|2021. 06. 23.

Generative Adversarial Networks and Image Synthesis참고 문헌 63인용 수 815

한 줄 요약

이 논문은 GAN 생성기에서 텍스처 달림(texture sticking)의 근본 원인으로 에일리싱(aliasing)을 식별하고, StyleGAN2의 연속 신호 기반 에일리싱 프리 재설계(StyleGAN3)를 제안하여 번역 및 회전 등가성을 달성하고 내부 표현을 개선하며 StyleGAN2의 FID와 일치시킨다.

ABSTRACT

We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation.

연구 동기 및 목표

에일리싱과 경계 효과가 GAN 생성기에서 텍스처 달림을 초래하는 원인을 설명한다.
서브 픽셀 변환 및 회전에 대해 등가성을 강제하는 연속 도메인, 에일리싱 프리 생성기 아키텍처를 개발한다.
StyleGAN2를 에일리싱 프리, 연속적으로 등가성이 있는 생성기(StyleGAN3)로 최소한의 FID 손실로 adapt한다.
에일리싱 없는 설계가 이미지 품질을 해치지 않으면서 회전 및 번역 등의 등가성을 달성한다는 것을 입증한다.

제안 방법

밴드 한정 신호와 Shannon–Nyquist 이론을 사용하여 CNN 신호 처리를 연속 도메인으로 재정의한다.
업샘플링 필터와 점별 비선형성으로부터 두 가지 에일리싱 원인을 식별하고 고감쇠 필터 및 연속 도메인 로우패스 필터링을 통해 이를 완화한다.
좌우 경계 참조를 억제하기 위해 샘플링/패딩을 경계 확장(boundary extension)과 윈도우된 sinc(Kaiser) 필터로 대체한다.
연속 등가성을 달성하기 위해 Fourier 특징, 필터링된 비선형성, 회전 등가 1x1 컨볼루션을 포함한 StyleGAN2 생성기의 다단계 재설계(StyleGAN2를 재구성)
레이어별 필터 예산, 스톱밴드 처리 및 이미지별 Fourier 특징 제어를 도입하여 축 전체의 에일리싱 관리
1x1 컨볼루션과 반경 대칭 다운샘플링 필터(jinc 기반)를 사용하여 회전 등가 생성기를 제공한다.
입력 Fourier 특징에 대한 학습 가능한 아핀 변환을 제안하고 검증하여 이미지별 전역 변환(이동/회전)을 허용한다.

실험 결과

연구 질문

RQ1GAN 생성기에서의 에일리싱을 제거하여 실제 서브 픽셀 번역 및 회전 등가성을 강제할 수 있는가?
RQ2StyleGAN2를 에일리싱 프리, 연속적으로 등가하는 생성기로 바꾸기 위해 필요한 최소한의 아키텍처 및 신호 처리 변화는 무엇인가?
RQ3에일리싱 프리 생성기(StyleGAN3)가 FID 및 명시적 등가성 지표 면에서 StyleGAN2와 어떻게 비교되는가?
RQ4회전 등가성이 이미지 품질을 해치나, 어떤 구성에서 합리적인 FID와 함께 달성되는가?
RQ5일관적이고 확장 가능한 등가 생성에 도움을 주는 실제 설계 지침(필터, 패딩, 레이어 규정)은 무엇인가?

주요 결과

Dataset	Config	FID↓	EQ-T↑	EQ-R↑
FFHQ-U 70000 img, 1024	StyleGAN2	3.79	15.89	10.79
FFHQ-U 70000 img, 1024	StyleGAN3-T	3.67	61.69	13.95
FFHQ-U 70000 img, 1024	StyleGAN3-R	3.66	64.78	47.64
FFHQ 70000 img, 1024	StyleGAN2	2.70	13.58	10.22
FFHQ 70000 img, 1024	StyleGAN3-T	2.79	61.21	13.82
FFHQ 70000 img, 1024	StyleGAN3-R	3.07	64.76	46.62
Ablation (Main configuration)	(StyleGAN3-R final)	4.50	66.65	40.48

에일리싱 프리 재설계가 StyleGAN2 FID 성능을 손실 없이 번역 및 회전 등가성을 제공한다.
StyleGAN3-R은 높은 EQ-T 이득으로 강한 회전 등가성(EQ-R)을 달성하면서 데이터셋 전반에서 경쟁력 있는 FID를 유지한다.
경계 패딩을 확장된 캔버스로 대체하고 고감쇠, 윈도우된 sinc 필터를 사용하면 번역 등가성이 크게 향상된다.
업샘플링/다운샘플링 및 레이어별 스톱밴드 예산을 포함한 여과된 비선형성은 에일리싱으로 인한 텍스처 달림을 감소시킨다.
회전 등가 생성은 1x1 컨볼루션과 반경 대칭 다운샘플링 필터로 달성되며 성능을 보존한다.
최종 구성은 번역에 대해 EQ-T 값이 약 60–70 dB, 회전에 대해 40–48 dB 범위에서 다수 데이터셋에서 경쟁력 있는 FID를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.