[论文解读] Neural Ordinary Differential Equations
本文提出 Neural ODEs,用通过黑箱 ODE 求解器的 adjoint 灵敏度进行训练来替代离散层的连续时间动力学,从而实现常量内存反向传播与灵活的计算。它还展示了连续正则化流及基于 ODE 的潜在时间序列模型。
We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network. The output of the network is computed using a black-box differential equation solver. These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed. We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions. For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models.
研究动机与目标
- 动机:用连续时间动力学替代离散深度,以提升内存效率和自适应性。
- 提出通过伴随灵敏度进行训练,使反向传播穿过 ODE 求解器而无需访问求解器内部实现。
- 展示用于可扩展、基于似然的密度估计的连续时间正则化流。
- 引入用于非规则时间序列数据的连续时间潜在 ODE 模型。
- 展示在监督学习、密度估计和时间序列建模中的实际收益。
提出的方法
- 用神经网络 f(h(t), t, θ) 参数化隐藏状态动力学,以定义 dh/dt = f(h, t, θ)。
- 用黑箱 ODE 求解器求解所得的初值问题以获得 h(T)。
- 通过伴随灵敏度法对求解器进行反向传播,求解一个向后时间的增广 ODE 以获得关于 θ 的梯度。
- 推导在连续变换下对对数密度的瞬时变换 (instantaneous change of variables),使可实现连续正则化流(CNF)。
- 通过解正向和反向时间 ODE 来计算密度和样本,基于最大似然对 CNF 进行训练。
- 将框架扩展到连续时间潜在变量时序模型,使之能够处理不规则观测和泊松过程似然。
实验结果
研究问题
- RQ1通过伴随求导训练的连续深度神经网络是否能在性能上达到离散深度网络?
- RQ2用连续动力学替代分层变换是否能在不损失精度的前提下提供内存效率和自适应计算?
- RQ3连续正则化流是否能在不进行维度分割的情况下,提供可扩展、可处理的基于似然的密度估计?
- RQ4基于 ODE 的潜在变量模型如何处理不规则时间序列数据和事件时间?
- RQ5神经 ODE 中前向求解器的精度与训练性能之间的权衡是什么?
主要发现
| 模型 | 测试误差 | 参数 | 内存 | 时间 |
|---|---|---|---|---|
| 1-Layer MLP | 1.60% | 0.24 M | - | - |
| ResNet | 0.41% | 0.60 M | O(L) | O(L) |
| RK-Net | 0.47% | 0.22 M | O(~L) | O(~L) |
| ODE-Net | 0.42% | 0.22 M | O(1) | O(~L) |
- ODE-Net 在 MNIST 上可达到类似 ResNet 的性能,参数量相近。
- 通过伴随方法对 ODE 求解器进行反向传播,成本线性且内存占用低,通常比对前向计算的反向传播更高效。
- 连续正则化流通过用迹式变量变换替代行列式雅可比,降低计算负担,使得宽流层具线性成本。
- CNF 与常规 NF 显示 CNF 在密度估计任务上有更低的训练损失,且在如 two circles 和 two moons 数据集等示例中对样本变换表现更好。
- 潜在 ODE 能实现对不规则时间序列数据的准确重构与外推,在预测 RMSE 方面优于 RNN 基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。