QUICK REVIEW

[論文レビュー] Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Jianzhun Du, Joseph Futoma|arXiv (Cornell University)|Jun 29, 2020

Reinforcement Learning in Robotics参考文献 56被引用数 25

ひとこと要約

本稿では、ニューラル常微分方程式（ODEs）を用いて連続時刻のダイナミクスをモデル化することで、半マルコフ意思決定過程（SMDPs）におけるモデルベース強化学習フレームワークを提案する。ODE-RNNおよびラティント・ODEアーキテクチャを用いて、行動と時刻をニューラルODEに統合することで、高いサンプル効率が達成され、不規則な時間スケジュール間でのポリシー転移が可能となり、最小限の相互作用データで連続時刻制御および医療分野の環境で、モデルフリーのベースラインを上回る性能を発揮する。

ABSTRACT

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.

研究の動機と目的

連続時刻環境における標準的な深層強化学習の限界を克服するため、連続ダイナミクスを捉えるモデルベースのアプローチを開発すること。
ニューラルODEを用いて状態遷移と間隔時間の両方を統合的にモデル化することで、環境との相互作用を最小限に抑えた効率的なポリシー学習を実現すること。
測定および行動のスケジュールが異なる環境間でのポリシー転送を可能とし、相互作用頻度を低減しながらも性能を維持すること。
隠れ状態をダイナミクスモデルに組み込むことで、部分的に観測可能な環境に対処すること。
連続時刻制御および医療分野において、モデルフリーおよび離散時刻のベースラインを上回ることを実証すること。

提案手法

ニューラルODEを拡張し、行動と時刻を入力として含めることで、半マルコフ意思決定過程における連続時刻ダイナミクスのモデル化を可能にする。
2つのアーキテクチャを提案する：ODE-RNNは、時間連続のダイナミクスを処理するための再帰構造を用い、ラティント・ODEは、潜在ODEを用いたエンコーダ・デコーダ構造で状態表現を実現する。
SMDPにおける状態遷移とインターセッション時間分布の両方を学習する統合フレームワークにダイナミクスモデルを統合する。
学習済みのダイナミクスモデルを用いて、異なる相互作用スケジュール下でも計画とポリシー最適化を実行し、環境との相互作用レートを低減する。
潜在ODEの訓練に変分推論を用い、潜在軌道から観測系列を再構築する。
1つの時間スケジュールで学習したポリシーを別のスケジュールに転送する応用を実施し、不規則なサンプリングに強いことを示す。

実験結果

リサーチクエスチョン

RQ1不規則な観測および行動間隔を伴う半マルコフ意思決定過程において、ニューラルODEは連続時刻ダイナミクスを効果的にモデル化できるか？
RQ2ニューラルODEを用いたモデルベースRLアプローチは、モデルフリー手法と比較して著しく少ない環境相互作用で高い性能を達成できるか？
RQ31つの相互作用スケジュールで学習したポリシーは、別のスケジュールに効果的に転送可能か？相互作用頻度を低減しても性能が維持されるか？
RQ4連続時刻ダイナミクスのモデル化において、ODEベースのモデルは標準的なRNNおよび時刻に注意を払ったRNNの変種と比較してどのように差をつけるか？
RQ5隠れ状態を維持することで、未観測のダイナミクスを捉えることができ、部分的に観測可能な環境を適切に扱えるか？

主な発見

ラティント・ODEおよびODE-RNNモデルは、全テスト環境においてRNN、Δt-RNN、Decay-RNN、およびラティント-RNNを上回る性能を示した。
HIV環境では、潜在状態を含むモデルベースポリシー（π^MB(a|s_partial,z)）が、モデルフリーおよびヴァニラモデルベースポリシーと比較して、より速くより高い性能を達成した。
強風が吹くグリッドワールドおよびアコブロブタスクにおいて、ラティント・ODEは全時間量子化において累積報酬で全ベースラインを上回った。特に不規則または粗いサンプリング間隔下で顕著な優位性を示した。
不規則な時間スケジュールで学習したポリシーは、正規のスケジュールへも良好に一般化され、時間間隔τが1から7に増加しても、ラティント・ODEは高い性能を維持した。
HIV環境では、モデルベースアプローチにより、一定の干渉と比較して相互作用レートを最大70％まで低減しながら、ほぼ最適な性能を維持した。
ODE-RNNおよびラティント・ODEモデルは、τ = 1からτ = 7の間で時間間隔の変化に強く、安定した性能を示した。これに対して、RNNベースのモデルは著しく性能が低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。