QUICK REVIEW

[논문 리뷰] Glow: Generative Flow with Invertible 1x1 Convolutions

Diederik P. Kingma, Prafulla Dhariwal|arXiv (Cornell University)|2018. 07. 09.

Generative Adversarial Networks and Image Synthesis참고 문헌 24인용 수 179

한 줄 요약

Glow는 흐름 기반 생성 모델에 가역 1×1 컨볼루션을 도입하여 로그가능도(log-likelihood)를 개선하고 현실적인 고해상도 이미지 합성 및 잠재 공간 조작을 가능하게 한다.

ABSTRACT

Flow-based generative models (Dinh et al., 2014) are conceptually attractive due to tractability of the exact log-likelihood, tractability of exact latent-variable inference, and parallelizability of both training and synthesis. In this paper we propose Glow, a simple type of generative flow using an invertible 1x1 convolution. Using our method we demonstrate a significant improvement in log-likelihood on standard benchmarks. Perhaps most strikingly, we demonstrate that a generative model optimized towards the plain log-likelihood objective is capable of efficient realistic-looking synthesis and manipulation of large images. The code for our model is available at https://github.com/openai/glow

연구 동기 및 목표

고차원 이미지에 대한 가능도 기반 생성 모델링을 발전시킨다.
고정 채널 순열을 대체하기 위해 학습 가능한 가역 1×1 컨볼루션을 도입한다.
다중 스케일 흐름에서 actnorm, 가역 1×1 컨볼루션, 그리고 어파인 커플링을 결합한다.
CIFAR-10, ImageNet, LSUN, CelebA-HQ 데이터셋에서 개선된 로그가능도를 보여준다.
고해상도 이미지 합성과 의미 있는 잠재 공간 조작을 선보인다.

제안 방법

일련의 단계(actnorm, 가역 1×1 컨볼루션, 어파인 커플링)로 구성된 생성 흐름을 구축한다.
차원을 점진적으로 처리하고 분해하기 위해 다중 스케일 아키텍처를 사용한다.
삼각자 Jacobian을 통해 정확한 야코비 행렬식으로 로그 가능도를 계산한다.
안정적인 학습을 위해 데이터 의존 활성화(actnorm)로 초기화한다.
고정 채널 순열을 학습 가능한 가역 1×1 컨볼루션으로 대체한다(효율성을 위해 선택적으로 LU 매개변수화).
아이덴티티 매핑으로 시작하도록 0으로 초기화된 NN 출력을 가진 어파인 커플링 계층을 사용한다.

실험 결과

연구 질문

RQ1가역 1×1 컨볼루션을 가진 흐름 기반 모델이 RealNVP를 넘어 표준 이미지 벤치마크에서 로그 가능도를 개선할 수 있는가?
RQ2Glow가 정확한 가능도를 해석 가능하게 유지하면서 효율적인 고해상도 이미지 합성과 의미 있는 잠재 공간 조작을 가능하게 하는가?
RQ3학습 가능한 1×1 컨볼루션이 고정 순열이나 역 채널 순서와 비교했을 때 성능과 효율성 측면에서 어떤 차이가 있는가?
RQ4제안된 다중 스케일 Glow 아키텍처가 충분한 학습 및 샘플링 시간으로 큰 이미지(예: 256×256)까지 확장 가능한가?
RQ5Glow 잠재 공간에서 어떤 질적 이점(샘플링 품질, 보간, 속성 조작)이 나타나는가?

주요 결과

Glow는 RealNVP에 비해 CIFAR-10, ImageNet 32×32/64×64, LSUN 데이터셋에서 차원당 비트 수에서 상당한 개선을 달성한다.
가역 1×1 컨볼루션은 수렴 속도를 빠르게 하고 매개변수가 약간 더 많아지지만(약 0.2% 증가) 학습 시간은 비슷하며 현저한 가능도 향상이 있다.
256×256에서 CelebA-HQ에 대해 Glow는 고품질의 비자기회귀 샘플을 합성하고 잠재 공간 보간 및 속성 조작을 지원한다.
합리적 온도에서 샘플링하면 다양하고 현실적인 이미지와 매끄러운 잠재 매니폴드를 얻을 수 있다.
온도와 깊이는 샘플 품질과 다양성에 영향을 주며 256×256 CelebA-HQ 실험에서 온도 0.7 부근이 최적점이다.
Glow는 고해상도 합성에서 효율적 시연을 보이며(256×256의 샘플링 시간 약 130 ms, 1080 Ti에서) 벤치마크 전반에서 경쟁력 있는 가능도도 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.