[论文解读] PixelSNAIL: An Improved Autoregressive Generative Model
PixelSNAIL 将因果卷积与自注意力结合起来,在 CIFAR-10 与 ImageNet 32×32 数据集上实现了最先进的每维比特数密度估计。
Autoregressive generative models consistently achieve the best results in density estimation tasks involving high dimensional data, such as images or audio. They pose density estimation as a sequence modeling task, where a recurrent neural network (RNN) models the conditional distribution over the next element conditioned on all previous elements. In this paradigm, the bottleneck is the extent to which the RNN can model long-range dependencies, and the most successful approaches rely on causal convolutions, which offer better access to earlier parts of the sequence than conventional RNNs. Taking inspiration from recent work in meta reinforcement learning, where dealing with long-range dependencies is also essential, we introduce a new generative model architecture that combines causal convolutions with self attention. In this note, we describe the resulting model and present state-of-the-art log-likelihood results on CIFAR-10 (2.85 bits per dim) and $32 imes 32$ ImageNet (3.80 bits per dim). Our implementation is available at https://github.com/neocxi/pixelsnail-public
研究动机与目标
- 在自回归密度估计中推动对高维数据的长程依赖建模的改进动机。
- 引入一种将因果卷积与自注意力整合的架构,以更好地捕捉上下文。
- 在标准基准上展示最先进的对数似然结果(CIFAR-10 和 ImageNet 32×32)。
- 提供一个开源实现,以实现可重复性并推动自回归建模方面的进一步研究。
提出的方法
- 提出 PixelSNAIL 架构,将带掩码的二维因果卷积残差块与自注意力块交错排列。
- 在残差块中使用门控激活,且每块含 4 次卷积、每次卷积 256 个滤波。
- 在注意力块中执行一次掩码键值查找,键大小为 16,值大小为 128。
- 训练采用离散化的混合物流输出(CIFAR-10 为 10 个分量,ImageNet 为 32 个分量)以及 Polyak 平滑以稳定参数。
- 在 CIFAR-10 模型中应用 dropout,而由于数据集规模原因对 ImageNet 省略 dropout;在注意力块中实现 1×1 卷积进行投影。
- 提供在给定仓库实现 PixelSNAIL 的公开代码。
实验结果
研究问题
- RQ1将因果卷积与自注意力结合是否能改善自回归图像模型的密度估计?
- RQ2与以往自回归模型相比,PixelSNAIL 在标准基准(CIFAR-10 和 ImageNet 32×32)上的表现如何?
- RQ3架构选择(块深度、注意力设置、混合成分)对对数似然性能有何影响?
主要发现
- PixelSNAIL 在 CIFAR-10 上达到 2.85 bits per dim,在 ImageNet 32×32 上达到 3.80,比先前的自回归模型更优。
- 与 PixelRNN、PixelCNN、PixelCNN++ 和 Image Transformer 相比,集成因果卷积与注意力的 PixelSNAIL 产生最佳的对数似然结果。
- 消融式结果表明,因果卷积和自注意力对性能的提升均有贡献,相较只使用其中一个组件的模型更加优越。
- 模型含有可公开获取的代码,以实现可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。