Skip to main content
QUICK REVIEW

[论文解读] Simple, Distributed, and Accelerated Probabilistic Programming

Dustin Tran, Matthew W. Hoffman|arXiv (Cornell University)|Jan 1, 2018
Machine Learning and Data Classification被引用 30
一句话总结

本文提出了一种轻量级、低层次的概率编程框架,嵌入于TensorFlow中,以单一抽象——随机变量为核心,实现了高效的模型并行与数据并行推理。该框架在256块TPUv2芯片上对VAE和Image Transformers实现了最优的线性加速,并在多GPU NUTS采样中实现了比Stan快100倍的性能提升。

ABSTRACT

We describe a simple, low-level approach for embedding probabilistic programming in a deep learning ecosystem. In particular, we distill probabilistic programming down to a single abstraction—the random variable. Our lightweight implementation in TensorFlow enables numerous applications: a model-parallel variational auto-encoder (VAE) with 2nd-generation tensor processing units (TPUv2s); a data-parallel autoregressive model (Image Transformer) with TPUv2s; and multi-GPU No-U-Turn Sampler (NUTS). For both a state-of-the-art VAE on 64x64 ImageNet and Image Transformer on 256x256 CelebA-HQ, our approach achieves an optimal linear speedup from 1 to 256 TPUv2 chips. With NUTS, we see a 100x speedup on GPUs over Stan and 37x over PyMC3.

研究动机与目标

  • 通过将概率编程简化为单一抽象——随机变量,来实现简化。
  • 在深度学习生态系统中实现高效可扩展的推理,且工程开销最小。
  • 在数千块加速器上,对模型并行和数据并行的概率模型均实现线性加速。
  • 通过多GPU无截断采样器(NUTS)加速马尔可夫链蒙特卡洛采样,超越现有工具的性能。

提出的方法

  • 该框架仅使用随机变量作为核心抽象来建模概率程序,隐藏了复杂分布和推理机制的细节。
  • 与TensorFlow原生集成,利用其自动微分和分布式执行能力实现高效计算。
  • 在TPUv2硬件上,使用该抽象实现了模型并行的VAE和数据并行的自回归模型(如Image Transformer)。
  • 通过参数分片和设备间梯度同步,实现了多GPU NUTS推理。
  • 系统支持变分推断和MCMC采样,且仅需极少代码修改。
  • 通过在1至256块TPUv2芯片上实现高效的数据并行和模型并行,实现了线性扩展。

实验结果

研究问题

  • RQ1是否可以在不牺牲表达能力或性能的前提下,将概率编程简化为单一抽象?
  • RQ2是否最小化、低层次的接口能够在模型并行和数据并行设置下,实现数千块加速器上的最优扩展?
  • RQ3此类系统是否能在MCMC采样中实现优于现有概率编程工具的性能?
  • RQ4该框架在分布式执行下,对SOTA模型(如VAE和Transformer)的支持程度如何?

主要发现

  • 该框架在64×64 ImageNet上的SOTA VAE上,从1到256块TPUv2芯片实现了最优线性加速。
  • 在256×256 CelebA-HQ上的Image Transformer也实现了最优线性加速,证明了其在数据并行设置下的可扩展性。
  • 多GPU NUTS采样相比Stan实现了100倍加速,相比PyMC3实现了37倍加速。
  • 该系统通过相同的低层次抽象,实现了对变分自编码器和自回归模型的高效可扩展推理。
  • 该方法在多种模型架构和硬件配置(包括TPU和多GPU设置)下均保持了高性能。
  • 随机变量抽象的简洁性使其具有广泛适用性,且不牺牲性能或可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。