[논문 리뷰] Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling
본 논문은 Subscale Pixel Networks (SPN)와 Multidimensional Upscaling을 도입하여 대 해상도에서 고충실도 8비트 이미지를 생성하고, CelebA-HQ-256 및 ImageNet-128/256에서 최첨단 가능도와 일관된 샘플을 달성한다.
The unconditional generation of high fidelity images is a longstanding benchmark for testing the performance of image decoders. Autoregressive image models have been able to generate small images unconditionally, but the extension of these methods to large images where fidelity can be more readily assessed has remained an open problem. Among the major challenges are the capacity to encode the vast previous context and the sheer difficulty of learning a distribution that preserves both global semantic coherence and exactness of detail. To address the former challenge, we propose the Subscale Pixel Network (SPN), a conditional decoder architecture that generates an image as a sequence of sub-images of equal size. The SPN compactly captures image-wide spatial dependencies and requires a fraction of the memory and the computation required by other fully autoregressive models. To address the latter challenge, we propose to use Multidimensional Upscaling to grow an image in both size and depth via intermediate stages utilising distinct SPNs. We evaluate SPNs on the unconditional generation of CelebAHQ of size 256 and of ImageNet from size 32 to 256. We achieve state-of-the-art likelihood results in multiple settings, set up new benchmark results in previously unexplored settings and are able to generate very high fidelity large scale samples on the basis of both datasets.
연구 동기 및 목표
- 무조건적 고충실도 대규모 이미지 생성의 도전에 대응한다.
- 큰 이미지에 대한 메모리 및 계산 효율적인 자동회귀 디코더를 개발한다.
- 중간 SPN 단계를 통해 이미지의 크기와 깊이를 늘리기 위한 Multidimensional Upscaling을 제안한다.
- 다양한 해상도에서 CelebA-HQ-256 및 ImageNet의 최첨단 가능도를 보여준다.
제안 방법
- Subscale Pixel Network (SPN)을 도입하여 이전에 생성된 슬라이스를 조건으로 하는 이미지 슬라이스를 생성한다.
- 긴 거리 의존성을 메모리 효율적인 디코딩으로 커버하기 위한 서브스케일 순서를 사용한다.
- 크기가 더 크고 깊이가 더 큰 이미지를 점진적으로 구성하기 위해 size-upscaling 디코더와 depth-upscaling 디코더를 학습한다.
- Multidimensional Upscaling을 적용하여 먼저 거친 비트(깊이)를 생성한 후 단계별로 전체 8비트 깊이에 걸쳐 세밀하게 다듬는다.
- SPN 디코더에서 자기 주의 메커니즘과 마스킹된 합성곱의 조합으로 이전 슬라이스에서의 맥락을 임베딩하고 집계한다.
- 훈련 중 대상 슬라이스에 대한 바람직하지 않은 몬테카를로 추정으로 최대 우도 학습을 수행한다.
실험 결과
연구 질문
- RQ1SPN이 서로 교차하는 슬라이스로 대형 이미지를 분해해도 전역 일관성을 잃지 않고 효율적으로 모델링할 수 있는가?
- RQ2크기 및 깊이 업스케일링을 포함한 Multidimensional Upscaling이 대규모 데이터셋에서 샘플의 충실도와 가능도를 향상시키는가?
- RQ3SPN이 CelebA-HQ-256 및 ImageNet에서 여러 해상도에 대해 기존의 자동회귀 모델과 어떻게 비교되는가?
- RQ4깊이 업스케일링 및 슬라이스 기반 조건화가 샘플 품질과 충실도에 미치는 영향은 무엇인가?
주요 결과
- SPN은 32x32 슬라이스를 처리하여 256x256 이미지에 대한 메모리 및 계산 효율적인 자동회귀 생성을 가능하게 한다.
- Multidimensional Upscaling은 샘플의 충실도와 가능도를 크게 향상시켜 대규모에서 고충실도 8비트 샘플을 가능하게 한다.
- SPN은 CelebA-HQ-256 및 ImageNet-128/256 벤치마크에서 최첨단 가능도를 달성한다.
- 깊이 업스케일링과 슬라이스 기반 조건화는 기저선 대비 더 의미론적으로 일관된 샘플을 만들어낸다.
- 무조건적 샘플은 샘플링 프로세스를 바꾸지 않고도 강한 전역 일관성과 세부 정보를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.