[论文解读] Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling
本论文提出 Subscale Pixel Networks (SPN) 与 Multidimensional Upscaling,用于在无条件条件下生成高保真 8-bit 图像,尺寸高达 256×256,达到最先进的似然度并能够产生连贯的大尺度样本。它在 CelebA-HQ-256 与 ImageNet-128/256 上展示出强劲表现,且训练具备可扩展性与内存高效性。
The unconditional generation of high fidelity images is a longstanding benchmark for testing the performance of image decoders. Autoregressive image models have been able to generate small images unconditionally, but the extension of these methods to large images where fidelity can be more readily assessed has remained an open problem. Among the major challenges are the capacity to encode the vast previous context and the sheer difficulty of learning a distribution that preserves both global semantic coherence and exactness of detail. To address the former challenge, we propose the Subscale Pixel Network (SPN), a conditional decoder architecture that generates an image as a sequence of sub-images of equal size. The SPN compactly captures image-wide spatial dependencies and requires a fraction of the memory and the computation required by other fully autoregressive models. To address the latter challenge, we propose to use Multidimensional Upscaling to grow an image in both size and depth via intermediate stages utilising distinct SPNs. We evaluate SPNs on the unconditional generation of CelebAHQ of size 256 and of ImageNet from size 32 to 256. We achieve state-of-the-art likelihood results in multiple settings, set up new benchmark results in previously unexplored settings and are able to generate very high fidelity large scale samples on the basis of both datasets.
研究动机与目标
- 以高效捕捉长程依赖来解决无条件高保真大规模图像生成的挑战。
- 通过 subscale slicing 发展一种解码器架构,以较少的内存和计算管理庞大的图像上下文。
- 提出一种深度与尺寸上采样策略,在关注视觉显著位的同时逐步提升图像质量。
- 在 CelebA-HQ-256 与 ImageNet 的多分辨率数据集上展示最先进的 MLE 分数和高保真样本。
提出的方法
- 介绍 Subscale Pixel Network (SPN),其将图像解码为一系列互相交错的切片(子尺度)的序列。
- 使用条件网络对先前生成的切片进行嵌入,解码器在切片之间共享权重来预测目标切片。
- 通过对每个切片分解的对数似然目标进行训练,并通过对该目标的蒙特卡洛估计进行采样。
- 通过具有不同 SPN 的中间阶段,应用多维上采样在尺寸和深度上扩展图像。
- 通过从小解码器生成第一片切片并将其作为条件驱动其余切片,来实现尺寸上采样。
- 通过先生成最显著比特并通过额外阶段逐步细化来实现深度上采样。
实验结果
研究问题
- RQ1SPN 是否能够在保持内存与计算可控的前提下,高效捕捉大型图像的长程空间依赖?
- RQ2多维上采样(尺寸与深度)是否能够提升高分辨率图像数据集上的样本保真度和似然度?
- RQ3与先前自回归模型相比,带深度上采样和/或尺寸上采样的 SPN 在 CelebA-HQ-256 与 ImageNet 的 128x128 和 256x256 上的表现如何?
- RQ4在 ImageNet 与 CelebA-HQ 数据集上,将 SPN 与多维上采样应用于对数似然度(bits/dim)的量化增益相比基线有多少?
主要发现
- SPN 通过处理 32x32 切片来代替完整 256x256 图像,从而实现内存和计算效率,内存最多可降低 64x,S=8 时。
- 在 ImageNet 128x128,SPN 相较于 Parallel Multiscale PixelCNN 将对数似然从 3.55 提升到 3.08 bits/dim。
- 在 ImageNet 256x256,深度上采样下达到 2.97 bits/dim,优于若干基线。
- 在 CelebA-HQ 256x256(8-bit)上,SPN 实现了最先进的 MLE 分数和高保真样本,竞争力与 GAN-based 方法相当。
- 深度上采样提升样本的语义一致性,而多维上采样提高整体样本的成功率。
- SPN 能在 128x128 与 256x256 生成高保真无条件样本,并且在似然度和样本质量方面相较于此前的自回归方法有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。