Skip to main content
QUICK REVIEW

[论文解读] Generative Image Modeling Using Spatial LSTMs

Lucas Theis, Matthias Bethge|arXiv (Cornell University)|Jun 10, 2015
Generative Adversarial Networks and Image Synthesis参考文献 51被引用 103
一句话总结

本文提出RIDE,一种使用空间长短期记忆(LSTM)单元的深度生成图像模型,以捕捉图像中的长程空间依赖关系。通过将多维LSTM与分解的条件高斯尺度混合(MCGSM)相结合,RIDE实现了可处理的似然度,并在图像生成、纹理合成和图像修复任务中优于当前最先进模型,尤其在具有强长程相关性的数据集上表现突出。

ABSTRACT

Modeling the distribution of natural images is challenging, partly because of strong statistical dependencies which can extend over hundreds of pixels. Recurrent neural networks have been successful in capturing long-range dependencies in a number of problems but only recently have found their way into generative image models. We here introduce a recurrent image model based on multi-dimensional long short-term memory units which are particularly suited for image modeling due to their spatial structure. Our model scales to images of arbitrary size and its likelihood is computationally tractable. We find that it outperforms the state of the art in quantitative comparisons on several image datasets and produces promising results when used for texture synthesis and inpainting.

研究动机与目标

  • 开发一种能够捕捉自然图像中长程空间依赖关系的深度可处理生成模型。
  • 通过将多维LSTMs整合到循环图像建模框架中,改进现有生成模型。
  • 在保持似然度计算可处理性的前提下,实现对任意尺寸图像的可扩展建模。
  • 在纹理合成和图像修复任务中展示模型的有效性,其中长程相关性至关重要。
  • 提出一种分解的MCGSM变体,以增强表示能力,同时避免参数过度增长。

提出的方法

  • 该模型采用空间LSTM架构,按扫描顺序处理像素,使循环连接能够跨大范围空间区域传播信息。
  • 每个像素的条件分布通过分解的MCGSM建模,其中参数在空间位置间共享,但通过LSTM隐藏状态对局部上下文进行条件化。
  • 联合似然度通过链式法则计算:p(x;θ) = ∏_{i,j} p(x_ij | x_<ij; θ),其中x_<ij表示扫描顺序中位于(i,j)之前的全部像素。
  • MCGSM组件使用具有共享尺度参数的条件独立高斯混合,实现对像素强度的灵活、高维建模。
  • 在图像修复的后验推断中,模型采用马尔可夫链蒙特卡洛(MCMC)方法,结合祖先采样初始化和局部提议更新。
  • 模型通过端到端的最大似然估计进行训练,似然度利用空间LSTM的自回归结构高效计算。

实验结果

研究问题

  • RQ1多维LSTM架构是否能有效建模自然图像中的长程空间依赖?
  • RQ2将空间LSTM与分解的MCGSM结合,是否能相比先前的自回归模型提升生成建模性能?
  • RQ3该模型能否通过捕捉复杂统计模式,实现逼真的纹理生成和有效的图像修复?
  • RQ4该模型在保持似然度计算可处理性的前提下,能否扩展到任意大小的图像?
  • RQ5空间LSTM在图像生成任务中相比标准卷积或自回归模型,优势程度如何?

主要发现

  • 在CIFAR-10、SVHN和LSUN等多个图像数据集上,RIDE在对数似然度和FID得分方面均优于当前最先进模型。
  • 在纹理合成方面表现卓越,尤其在具有双峰分布和周期性模式的纹理(如D104和D34)上。
  • 在图像修复任务中,RIDE通过MCMC采样成功重建了大块缺失区域(71×71像素),生成结果视觉上合理。
  • 分解的MCGSM组件显著提升了建模能力,同时参数增长极小,能够更好地表示复杂图像统计特性。
  • RIDE在未见纹理上表现出强大泛化能力,生成样本在D106和D110上几乎与真实样本无法区分。
  • 空间LSTM的使用使模型能够捕捉标准MCGSM或局部模型无法有效建模的长程相关性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。