[论文解读] How to train your neural ODE: the world of Jacobian and kinetic regularization
RNODE 引入两种正则化项(流动的动能和雅可比 Frobenius 范数)到神经 ODEs,通过鼓励更简单、更多正则的动力学来加速训练,同时不损失性能。
Training neural ODEs on large datasets has not been tractable due to the necessity of allowing the adaptive numerical ODE solver to refine its step size to very small values. In practice this leads to dynamics equivalent to many hundreds or even thousands of layers. In this paper, we overcome this apparent difficulty by introducing a theoretically-grounded combination of both optimal transport and stability regularizations which encourage neural ODEs to prefer simpler dynamics out of all the dynamics that solve a problem well. Simpler dynamics lead to faster convergence and to fewer discretizations of the solver, considerably decreasing wall-clock time without loss in performance. Our approach allows us to train neural ODE-based generative models to the same performance as the unregularized dynamics, with significant reductions in training time. This brings neural ODEs closer to practical relevance in large-scale applications.
研究动机与目标
- 由于自适应求解器和深层离散化,激励在大规模数据集上训练神经 ODE 的难度。
- 提出理论上有据可循的正则化项,促进更简单、行为良好的动力学。
- 证明正则化可在不损失性能的前提下,加速基于神经 ODE 的生成模型的训练。
提出的方法
- 引入两项来自最优传输和流动正则性的正则化项:流的动能和雅可比矩阵的 Frobenius 范数。
- 通过增加额外的状态变量来跟踪动能和雅可比代价,将这些惩罚项并入 FFJORD 连续归一化流。
- 使用蒙特卡洛迹估计来估计散度和雅可比项,以实现可扩展训练。
- 使用伴随敏感性进行反向传播,以计算扩展目标的梯度。
- 表明 RNODE 在训练过程中可以使用固定网格求解器,同时保持性能,从而实现更快的训练。
实验结果
研究问题
- RQ1动能项和雅可比正则化是否能够在不降低似然性能的前提下提升神经 ODE 的可训练性?
- RQ2这些正则化是否通过产生更平滑、可积的动力学而带来更快的实际训练时间?
- RQ3RNODE 的正则化与学习到的流的最优传输形式有何关系?
- RQ4在标准生成建模基准上,RNODE 对训练稳定性与计算量(如函数评估次数)的经验影响如何?
主要发现
- RNODE 在对 FFJORD 的对数似然值方面达到可比水平,同时显著缩短训练时间(如报告的加速和维持的性能)。
- 正则化项抑制雅可比增长,促进直线、恒速轨迹,改善所学习动力学的数值可积性。
- 动能项与雅可比正则化在消减求解器步数并稳定训练方面独立发挥作用,如消融研究所示。
- RNODE 的正则化利用现有的散度估计和雅可比向量计算,在 FFJORD 中几乎无额外成本,使其能在大型数据集上进行实际部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。