[论文解读] Neural Stochastic Differential Equations: Deep Latent Gaussian Models in the Diffusion Limit
本文将 neural SDEs 作为 deep latent Gaussian models 的扩散极限进行建模,并提出一种基于 Wiener-space AD 与 Girsanov 重参数化的变分推断框架,用于端到端学习。
In deep latent Gaussian models, the latent variable is generated by a time-inhomogeneous Markov chain, where at each time step we pass the current state through a parametric nonlinear map, such as a feedforward neural net, and add a small independent Gaussian perturbation. This work considers the diffusion limit of such models, where the number of layers tends to infinity, while the step size and the noise variance tend to zero. The limiting latent object is an It\\^o diffusion process that solves a stochastic differential equation (SDE) whose drift and diffusion coefficient are implemented by neural nets. We develop a variational inference framework for these \ extit{neural SDEs} via stochastic automatic differentiation in Wiener space, where the variational approximations to the posterior are obtained by Girsanov (mean-shift) transformation of the standard Wiener process and the computation of gradients is based on the theory of stochastic flows. This permits the use of black-box SDE solvers and automatic differentiation for end-to-end inference. Experimental results with synthetic data are provided.
研究动机与目标
- 通过扩 diffusion 极限将 deep latent Gaussian models (DLGMs) 扩展到连续时间动力学的动机。
- 定义 drift 和 diffusion 由 neural nets 实现的 neural SDEs。
- 在路径空间上利用 Wiener measure 和 Girsanov 重参数化开发变分推断框架。
- 通过黑箱 SDE 求解器和自动微分实现端到端学习。
提出的方法
- 用 Wiener 过程表示潜在的随机性,并在 Wiener measure 下将潜在空间表述为 Wiener space。
- 通过路径空间上的 Gibbs 变分原理推导边际对数似然的变分下界,并将后验近似与均值漂移(Girsanov)联系起来。
- 提出一个均场变分族,在 Wiener 过程上加上一个观测相关的神经网络漂移项。
- 解释如何在 Wiener space 中使用带有黑箱 SDE 求解器的自动微分进行梯度计算。
- 讨论两种梯度估计方法:先求解再微分(Euler backprop)与先微分再求解(通过随机流的路径导数 pathwise derivatives)。
- 将 neural SDEs 与 DLGM 的扩 diffusion 极限联系起来,并与现有的 neural ODE 框架相连。
实验结果
研究问题
- RQ1Can neural SDEs expressively approximate target distributions via diffusion limits of DLGM 架构?
- RQ2如何在路径空间上使用 Girsanov 重参数化为 neural SDEs 形式化变分推断?
- RQ3在通过黑箱 SDE 求解器对 neural SDEs 进行端到端训练时,反向传播的实用策略有哪些?
- RQ4随机流在实现 neural SDE 参数的路径导数方面起到的作用是什么?
主要发现
- Neural SDEs 可以通过 drift 和 diffusion 由 neural nets 实现的扩散过程来表达目标分布。
- 使用路径空间 Gibbs 原理和 Girsanov 重参数化得到边际似然的变分下界。
- 梯度计算可以在 Wiener space 中通过带有黑箱 SDE 求解器的自动微分完成,使用 Euler backpropagation 或 pathwise differentiation。
- 该方法为在神经 SDEs 中使用黑箱 SDE 求解器进行端到端变分推断提供了框架。
- 将 neural SDEs 与 DLGM 的扩散极限联系起来,将 neural ODE 的概念扩展到随机的连续时间模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。