[논문 리뷰] Hierarchical Autoregressive Image Models with Auxiliary Decoders
이 논문은 가능도 기반 생성 모델에서 대규모 구조적 일관성을 향상시키기 위해 보조 디코더를 갖춘 계층적 자동회귀 이미지 모델을 제안한다. 벡터 양자화를 통해 이산적이고 추상적인 이미지 표현을 학습하고, 이러한 코드에 대해 자동회귀 사전을 훈련시킴으로써 128×128 및 256×256 해상도에서 고해상도, 클래스 조건부 생성을 달성한다. 이는 이전의 가능도 기반 모델보다 구조적 일관성에서 뛰어나며, 모드 붕괴를 피한다.
Autoregressive generative models of images tend to be biased towards capturing local structure, and as a result they often produce samples which are lacking in terms of large-scale coherence. To address this, we propose two methods to learn discrete representations of images which abstract away local detail. We show that autoregressive models conditioned on these representations can produce high-fidelity reconstructions of images, and that we can train autoregressive priors on these representations that produce samples with large-scale coherence. We can recursively apply the learning procedure, yielding a hierarchy of progressively more abstract image representations. We train hierarchical class-conditional autoregressive models on the ImageNet dataset and demonstrate that they are able to generate realistic images at resolutions of 128$ imes$128 and 256$ imes$256 pixels. We also perform a human evaluation study comparing our models with both adversarial and likelihood-based state-of-the-art generative models.
연구 동기 및 목표
- 국소 상관관계에 치우친 경향으로 인해 자동회귀 모델이 대규모 이미지 구조를 포착하는 데 한계가 있음.
- 자기회귀 오토에인코드르의 엔드 투 엔드 훈련에서 발생하는 불안정성과 실패 모드를 해결함.
- 다양한 수준의 이미지 추상화에 모델 용량을 할당하는 확장 가능한 계층적 프레임워크 개발.
- 모드 붕괴를 피하면서 가능성 기반 훈련만을 사용하여 고해상도, 클래스 조건부 이미지 생성 가능화.
제안 방법
- 지역적 세부 정보를 추상화하는 이산적이고 유한한 이미지 표현을 학습하기 위해 벡터 양자화(VQ) 버블넥을 사용함.
- 엔코더를 보조 디코더(직렬 신경망 또는 마스크된 자기예측(MSP))와 함께 훈련시켜, 엔드 투 엔드 자기회귀 훈련 없이도 표현 학습을 감독함.
- 각 수준에서 공간 해상도가 낮아지는 점점 더 추상적인 코드를 생성하는 계층적 아키텍처를 구성함.
- 고차원적 구조를 모델링하기 위해 이산 코드에 강력한 자동회귀 사전을 훈련하고, 픽셀 수준 복원을 위해 작은 디코더를 사용함.
- 자기회귀 사전에 마스크된 자기어텐션 레이어를 적용하여 모델링 능력과 장거리 의존성을 향상시킴.
- 픽셀 공간과 코드 공간 양쪽에서 공동 가능도 훈련을 적용하여 고해상도 복원과 일관성 있는 생성을 보장함.
실험 결과
연구 질문
- RQ1엔드 투 엔드 자기회귀 훈련을 불안정하게 만들지 않고도 보조 디코더가 이산적 이미지 표현을 효과적으로 훈련시킬 수 있는가?
- RQ2추상적 코드에 조건부가 된 계층적 자동회귀 모델이 현실적이며 고해상도 이미지를 대규모 일관성과 함께 생성할 수 있는가?
- RQ3직렬 신경망과 마스크된 자기예측(MSP) 디코더는 계층적 모델링을 위한 유용한 이미지 표현을 어떻게 비교하여 학습하는가?
- RQ4가능성 기반 모델이 모드 붕괴 없이 생성된 모델과 유사한 시각적 해상도를 달성할 수 있는 정도는 어느 정도인가?
주요 결과
- 보조 디코더를 갖춘 계층적 자동회귀 모델은 128×128 및 256×256 해상도에서 높은 인지적 품질과 대규모 일관성을 갖춘 클래스 조건부 이미지를 성공적으로 생성한다.
- 인간 평가 결과, MSP 기반 모델의 샘플이 22.89%의 이변 비교에서 BigGAN 샘플보다 선호되었으며, 이는 강력한 현실성의 지표로 간주된다.
- 128×128 이미지에서 인ception 스코어(IS)는 18.10 ± 0.96, FID는 44.95를 기록하여, 더 작은 ImageNet 해상도에서 최신의 PixelCNN 모델과 유사한 성능을 달성했다.
- 픽셀과 코드 공간 전반의 공동 음수 로그가능도(NLL)는 3.343 비트/차원이었으며, 강력한 가능도 모델링 성능을 나타낸다.
- 대조적으로, 적대적 모델보다 낮은 IS와 FID를 기록했지만, 계층적 접근은 모드 붕괴를 피하고 구조적 추상화에 대한 더 나은 제어를 가능하게 한다.
- 인간 평가에서, 이 모델의 샘플은 픽셀 수준의 하위 스케일 네트워크보다 더 현실적으로 평가되었으며, 가능성 기반 훈련만을 사용했음에도 불구하고 BigGAN 수준에 거의 도달했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.