[论文解读] Hierarchical Autoregressive Image Models with Auxiliary Decoders
该论文提出了一种带有辅助解码器的层次化自回归图像模型,以提升基于似然的生成模型在大规模结构一致性方面的表现。通过使用向量量化学习离散、抽象的图像表征,并在这些码本上训练自回归先验,该方法在128×128和256×256分辨率下实现了高保真度、类别条件生成,其结构保真度优于以往基于似然的模型,同时避免了模式崩溃问题。
Autoregressive generative models of images tend to be biased towards capturing local structure, and as a result they often produce samples which are lacking in terms of large-scale coherence. To address this, we propose two methods to learn discrete representations of images which abstract away local detail. We show that autoregressive models conditioned on these representations can produce high-fidelity reconstructions of images, and that we can train autoregressive priors on these representations that produce samples with large-scale coherence. We can recursively apply the learning procedure, yielding a hierarchy of progressively more abstract image representations. We train hierarchical class-conditional autoregressive models on the ImageNet dataset and demonstrate that they are able to generate realistic images at resolutions of 128$ imes$128 and 256$ imes$256 pixels. We also perform a human evaluation study comparing our models with both adversarial and likelihood-based state-of-the-art generative models.
研究动机与目标
- 解决自回归模型在捕捉大尺度图像结构方面因偏向局部相关性而产生的局限性。
- 克服端到端训练在自回归自编码器中导致的不稳定性和失败模式。
- 构建一个可扩展的层次化框架,将模型容量分配给图像抽象的不同层次。
- 仅通过基于似然的训练实现高保真度、类别条件的图像生成,避免模式崩溃。
提出的方法
- 使用向量量化(VQ)瓶颈学习离散、有界的图像表征,以抽象化局部细节。
- 通过辅助解码器(前馈网络或掩码自预测,MSP)训练编码器,以监督表征学习,避免端到端的自回归训练。
- 构建一个层次化架构,每一层在更低的空间分辨率下生成越来越抽象的码本。
- 在离散码本上训练强大的自回归先验以建模高层结构,同时使用较小的解码器进行像素级重建。
- 在自回归先验中应用掩码自注意力层,以提升建模能力并捕捉长距离依赖关系。
- 在像素空间和码本空间上联合进行似然训练,以确保高保真度重建和一致的生成效果。
实验结果
研究问题
- RQ1辅助解码器是否能有效训练离散图像表征,而不会破坏端到端自回归训练的稳定性?
- RQ2基于抽象码本的层次化自回归模型能否生成具有大尺度一致性的逼真高分辨率图像?
- RQ3前馈网络与掩码自预测(MSP)解码器在学习用于层次化建模的有用图像表征方面有何差异?
- RQ4基于似然的模型在不发生模式崩溃的前提下,能在多大程度上实现与对抗模型相当的视觉保真度?
主要发现
- 带有辅助解码器的层次化自回归模型成功生成了128×128和256×256分辨率的类别条件图像,具有高感知质量与大尺度一致性。
- 人类评估显示,基于MSP的模型生成的样本在22.89%的成对比较中优于BigGAN样本,表明其具有较强的逼真度。
- 在128×128图像上,该模型的Inception Score(IS)为18.10 ± 0.96,FID为44.95,与在较小ImageNet分辨率下表现最优的PixelCNNs相当。
- 像素与码本空间的联合负对数似然(NLL)为3.343比特/维度,表明其具有强大的似然建模性能。
- 尽管IS与FID低于对抗模型,但该层次化方法避免了模式崩溃,并实现了对结构抽象的更好控制。
- 在人类评估中,该模型生成的样本被评价为比子分辨率像素网络更逼真,且与BigGAN几乎持平,尽管仅使用了基于似然的训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。