Skip to main content
QUICK REVIEW

[논문 리뷰] Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling

Jacob Menick, Nal Kalchbrenner|arXiv (Cornell University)|2018. 12. 04.
Cell Image Analysis Techniques인용 수 58
한 줄 요약

본 논문은 Subscale Pixel Networks (SPN) 및 Multidimensional Upscaling을 도입하여 256x256까지의 8비트 이미지를 무조건적으로 고충실도로 생성하며, 상태-최첨단 likelihoods와 일관된 대규모 샘플을 달성합니다. CelebA-HQ-256 및 ImageNet-128/256에서 확장 가능하고 메모리 효율적인 학습으로 강력한 성능을 보여줍니다.

ABSTRACT

The unconditional generation of high fidelity images is a longstanding benchmark for testing the performance of image decoders. Autoregressive image models have been able to generate small images unconditionally, but the extension of these methods to large images where fidelity can be more readily assessed has remained an open problem. Among the major challenges are the capacity to encode the vast previous context and the sheer difficulty of learning a distribution that preserves both global semantic coherence and exactness of detail. To address the former challenge, we propose the Subscale Pixel Network (SPN), a conditional decoder architecture that generates an image as a sequence of sub-images of equal size. The SPN compactly captures image-wide spatial dependencies and requires a fraction of the memory and the computation required by other fully autoregressive models. To address the latter challenge, we propose to use Multidimensional Upscaling to grow an image in both size and depth via intermediate stages utilising distinct SPNs. We evaluate SPNs on the unconditional generation of CelebAHQ of size 256 and of ImageNet from size 32 to 256. We achieve state-of-the-art likelihood results in multiple settings, set up new benchmark results in previously unexplored settings and are able to generate very high fidelity large scale samples on the basis of both datasets.

연구 동기 및 목표

  • 무조건적 고충실도 대규모 이미지 생성을 보다 효율적으로 장거리 공간 의존성을 포착하는 문제를 다룬다.
  • 메모리 및 계산량을 줄이면서 광범위한 이미지 컨텍스트를 관리하는 디코더 아키텍처를 서브스케일 슬라이싱으로 개발한다.
  • 시각적으로 중요한 비트를 중심으로 이미지 품질을 점진적으로 다듬으면서 크기와 깊이 업스케일링 전략을 제안한다.
  • 다양한 해상도에서 CelebA-HQ-256 및 ImageNet 데이터셋에 대해 최첨단 MLE 점수와 고충실도 샘플을 입증한다.

제안 방법

  • Subscale Pixel Network (SPN)을 도입하여 이미지를 서로 교차하는 슬라이스(서브스케일)의 시퀀스로 디코딩한다.
  • 이전에 생성된 슬라이스를 임베딩하는 컨디셔닝 네트워크를 사용하고, 슬라이스 간 공유 가중치를 갖는 디코더로 대상 슬라이스를 예측한다.
  • 슬라이스별로 분해된 로그 가능도 객체를 사용하여 학습하고, 이 객체의 몬테카를로 추정으로 샘플링한다.
  • Multidimensional Upscaling을 적용하여 중간 단계에서 서로 다른 SPN으로 이미지의 크기와 깊이를 확장한다.
  • 작은 디코더에서 첫 번째 슬라이스를 생성하고 나머지를 그것에 조건화하여 크기 업스케일링을 구현한다.
  • 가장 중요한 비트를 먼저 생성하고 추가 단계에서 점진적으로 다듬어 깊이 업스케일링을 구현한다.

실험 결과

연구 질문

  • RQ1SPN이 큰 이미지에서 긴 거리의 공간 의존성을 효율적으로 포착하면서 메모리 및 계산을 관리 가능한 수준으로 유지할 수 있는가?
  • RQ2다차원 업스케일링(크기 및 깊이)이 고해상도 이미지 데이터셋에서 샘플 충실도와 가능도를 향상시키는가?
  • RQ3깊이 업스케일링 및/또는 크기 업스케일링이 CelebA-HQ-256 및 ImageNet에서 128x128 및 256x256 수준에서 기존의 오토회귀 모델과 비교해 어떤 성능을 보이는가?
  • RQ4다차원 업스케일링이 적용된 SPN의 로그 가능도(비트/차원)의 양적 이득은 기준선 대비 어느 정도인가?

주요 결과

  • SPN은 전체 256x256 이미지 대신 32x32 슬라이스를 처리하여 메모리 및 계산 효율적 생성을 가능하게 하며, S=8일 때 최대 64배까지 메모리를 줄인다.
  • ImageNet 128x128에서 SPN은 Parallel Multiscale PixelCNN 대비 로그 가능도를 3.55에서 3.08 bits/dim으로 개선한다.
  • ImageNet 256x256에서 깊이 업스케일링으로 2.97 bits/dim을 달성하며 여러 기준선보다 우수하다.
  • CelebA-HQ 256x256 (8-bit)에서 SPN은 최첨단 MLE 점수와 GAN 기반 접근법에 비견될 만큼의 고충실도 샘플을 달성한다.
  • 깊이 업스케일링은 샘플의 의미론적 일관성을 개선하고, 다차원 업스케일링은 전체 샘플 성공률을 증가시킨다.
  • SPN은 128x128 및 256x256에서 무조건적 고충실도 샘플을 가능하게 하며, 이전의 오토회귀 방법에 비해 가능도와 샘플 품질에서 상당한 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.