Skip to main content
QUICK REVIEW

[论文解读] Pixel Recurrent Neural Networks

Aäron van den Oord, Nal Kalchbrenner|arXiv (Cornell University)|Jan 25, 2016
Generative Adversarial Networks and Image Synthesis参考文献 32被引用 488
一句话总结

PixelRNNs 模型像素的离散分布,使用 2D 递归层(Row LSTM 和 Diagonal BiLSTM)及掩蔽卷积来生成高保真、全局一致的图像。它们在多个数据集上实现了最先进的对数似然度,并提供 ImageNet 基准测试。

ABSTRACT

Modeling the distribution of natural images is a landmark problem in unsupervised learning. This task requires an image model that is at once expressive, tractable and scalable. We present a deep neural network that sequentially predicts the pixels in an image along the two spatial dimensions. Our method models the discrete probability of the raw pixel values and encodes the complete set of dependencies in the image. Architectural novelties include fast two-dimensional recurrent layers and an effective use of residual connections in deep recurrent networks. We achieve log-likelihood scores on natural images that are considerably better than the previous state of the art. Our main results also provide benchmarks on the diverse ImageNet dataset. Samples generated from the model appear crisp, varied and globally coherent.

研究动机与目标

  • 以像素级实现可处理、具表达能力的自然图像生成建模为目标。
  • 提出二维递归架构以捕获跨图像行和对角线的长程依赖。
  • 探索离散像素建模,使用 softmax 输出和掩蔽卷积以实现正确的条件依赖。
  • 评估结构创新(残差连接、多尺度设定)在标准基准上的效果。
  • 提供定性样本以评估生成图像的全局一致性和真实感。

提出的方法

  • 将图像分布分解为按行主序的像素条件分布的乘积。
  • 将每个像素的 RGB 通道建模为通过 softmax 的条件多项式分布(离散取值 0–255)。
  • 引入两种二维递归层:Row LSTM(逐行卷积)和 Diagonal BiLSTM(对角线卷积),并带有残差连接。
  • 在卷积转换中应用掩蔽以强制正确的像素条件,第一层使用掩蔽 A,后续层使用掩蔽 B。
  • 开发一个具有完全卷积架构的 PixelCNN 变体以实现更快的训练,与 PixelRNN 共享核心思想。
  • 可选地使用 Multi-Scale PixelRNN,先无条件生成较小图像,再将更大图像条件化为上采样后的较小图像。

实验结果

研究问题

  • RQ1二维递归架构(Row LSTM、Diagonal BiLSTM)是否能有效建模自然图像中的长程依赖?
  • RQ2用 softmax 输出对离散像素值建模是否比连续值方法有更好性能?
  • RQ3残差连接和深度对对数似然和样本质量有何影响?
  • RQ4像素级自回归模型与如 PixelCNN 等卷积替代模型在标准数据集上的比较?
  • RQ5多尺度条件化方案是否提升生成图像的全局一致性?

主要发现

  • PixelRNNs 在 MNIST 和 CIFAR-10 上显著获得优于以往 state-of-the-art 的对数似然分数。
  • Diagonal BiLSTM(采用全对角线聚焦的递归)和 Row LSTM(逐行递归)有效捕捉全局图像结构,较深的模型在与残差连接结合时性能更好。
  • 离散 softmax 像素建模相较于连续像素建模提供表示与训练上的优势,获得具有竞争力或更优的对数似然结果。
  • 残差连接显著帮助深层 PixelRNNs 与 PixelCNNs 的训练,使得达到多达 12 层递归时的优化得到改善。
  • Multi-Scale PixelRNN 相较单尺度模型产生的图像在全局一致性上更优,同时对对数似然结果具有可比性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。