Skip to main content
QUICK REVIEW

[論文レビュー] Neural Ordinary Differential Equations

Ricky T. Q. Chen, Yulia Rubanova|arXiv (Cornell University)|Jun 19, 2018
Model Reduction and Neural Networks参考文献 55被引用数 566
ひとこと要約

本論文は Neural ODEs を導入し、離散的な層をニューラルベクトル場で定義される連続時間動力学に置換し、ブラックボックス ODE ソルバーを介した adjoint 感度法で訓練することで定常メモリの逆伝播と柔軟な計算を実現します。さらに、連続正規化フローと ODE を基盤とした潜在時系列モデルを提示します。

ABSTRACT

We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network. The output of the network is computed using a black-box differential equation solver. These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed. We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions. For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models.

研究の動機と目的

  • 離散的深さを連続時間動力学に置換してメモリ効率と適応性を向上させる動機付け。
  • ODE ソルバーを通して勾配を伝搬するための adjoint 感度法を提案し、ソルバーの内部構造にアクセスせずに訓練する。
  • 連続正規化フローを用いてスケーラブルで尤度ベースの密度推定を実現。
  • 連続時間の潜在ODEモデルを導入し、不規則な時系列データに対応。
  • 教師あり学習、密度推定、時系列モデリングにおける実用的利点を示す。

提案手法

  • 隠れ状態の動力学を f(h(t), t, θ) のニューラルネットワークでパラメータ化し、dh/dt = f(h, t, θ) を定義。
  • ブラックボックス ODE ソルバーを用いて初期値問題を解き、h(T) を得る。
  • 勾配は adjoint 感度法を用いてソルバーを伝播させ、勾配 w.r.t. θ のための前向きではなく後向きの拡張 ODE を解く。
  • 連続変換下での log-density の瞬時の変化を導出し、連続正規化フロー (CNF) を可能にする。
  • CNF を最大似然で訓練するには前方と反転時の ODE を解いて密度とサンプルを計算する。
  • 不規則な観測とポアソン過程の尤度を可能にする、連続時間潜在変数時系列モデルへ枠組みを拡張する。

実験結果

リサーチクエスチョン

  • RQ1 adjoint 微分で訓練された連続深さのニューラルネットワークは、離散深さのネットワークと性能面で同等になり得るか。
  • RQ2層状変換を連続的なダイナミクスに置換して、精度を落とすことなくメモリ効率と適応的計算を提供できるか。
  • RQ3 CNF は次元分割なしでスケーラブルで扱いやすい尤度ベースの密度推定を提供できるか。
  • RQ4ODE ベースの潜在変数モデルは不規則な時系列データとイベント時刻をどう扱えるか。
  • RQ5ニューラル ODE の前方ソルバーの精度と訓練性能のトレードオフはどうなるか。

主な発見

ModelTest ErrorParamsMemoryTime
1-Layer MLP1.60%0.24 M--
ResNet0.41%0.60 MO(L)O(L)
RK-Net0.47%0.22 MO(~L)O(~L)
ODE-Net0.42%0.22 MO(1)O(~L)
  • ODE-Nets は MNIST で ResNet ライクな性能を、同程度のパラメータ数で発揮できる。
  • adjoint 法を用いた ODE ソルバーのバックプロパゲーションは線形コストで低メモリ、しばしばフォワードパスのバックプロパゲーションより効率的。
  • 連続正規化フローはヤコビの決定量を行列式ではなくトレース基の変数変換に置換することで計算負荷を削減し、線形コストのワイドフロー層を実現する。
  • CNF と通常の NF は密度推定タスクで CNF が訓練損失を低くし、二つの円や二つの月面データセットの例でサンプル変換が良好であることを示す。
  • 潜在ODEは不規則な時系列データの正確な再構成と外挿を可能にし、RNN ベースラインと比較して予測 RMSE が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。