[論文レビュー] Discrete Sequential Prediction of Continuous Actions for Deep RL
この論文はSequential DQN(SDQN)を提案する。オフポリシー手法で、各アクション次元を離散化し、アクションを逐次予測して連続制御タスクでほぼグローバル最大化を可能にする。MujocoタスクでDDPGと同等以上の性能を示す。
It has long been assumed that high dimensional continuous control problems cannot be solved effectively by discretizing individual dimensions of the action space due to the exponentially large number of bins over which policies would have to be learned. In this paper, we draw inspiration from the recent success of sequence-to-sequence models for structured prediction problems to develop policies over discretized spaces. Central to this method is the realization that complex functions over high dimensional spaces can be modeled by neural networks that predict one dimension at a time. Specifically, we show how Q-values and policies over continuous spaces can be modeled using a next step prediction model over discretized dimensions. With this parameterization, it is possible to both leverage the compositional structure of action spaces during learning, as well as compute maxima over action spaces (approximately). On a simple example task we demonstrate empirically that our method can perform global search, which effectively gets around the local optimization issues that plague DDPG. We apply the technique to off-policy (Q-learning) methods and show that our method can achieve the state-of-the-art for off-policy methods on several continuous control tasks.
研究の動機と目的
- 離散化による高次元連続制御の課題を動機づける。
- 離散化されたアクション空間を扱う際、指数的なアクション爆発を避ける自己回帰的(逐次)Q値モデリング手法を導入する。
- バックプロパゲーションとBellmanバックアップを可能にする1次元アクション予測を可能にする二層MDP変換を開発する。
- 連 off-policy学習の利点を示すため、連続制御タスクにおけるQ学習風の更新に本手法を適用する。
提案手法
- N次元の連続アクション空間を二層MDP階層を用いて1次元アクションの系列に分解する。
- 各アクション次元をビンに離散化し、逐次予測器(SDQN)でQ値をモデリングする。
- 上位MDP上のQ^UをTD-0で学習し、Greedyポリシーに対するベルマン誤差を最小化する。
- 下位MDP上では実環境が状態を変える場合を除き割引率をゼロとして学習し、対応点でQ^U = Q^Lを強制する。
- Q^UとQ^Lをニューラルネットワークでパラメータ化(LSTMまたは各ステップごとの別モデル)、二つのQ関数間のsoft等価性を適用して整合性を保つ。
- SDQNをOpenAI Gym MujocoタスクでDDPGと比較し、ビン数とアクション順序の感度を分析する。
実験結果
リサーチクエスチョン
- RQ1高次元の連続制御において、アクション次元を離散化しそれらを逐次予測することで、グローバル最大化に近づくことができるか。
- RQ2オフポリシーSDQNアプローチは、標準ベンチマークで最先端の連続制御手法(例:DDPG)と比較して競争力のある性能を達成するか。
- RQ3ビン数(離散化の粒度)とアクション順序は学習性能と安定性にどのような影響を与えるか。
主な発見
- SDQNは5つのMujocoタスクのうち4つでDDPGと比較可能、あるいはそれを上回る性能を達成。
- SDQNは良好なポリシーを迅速に学習し、勾配ベースの方法が陥りやすい局所最大を避けることができる。
- ビン数の範囲(ビン数が4を超える場合)に対して頑健であり、一般にアクション順序に対する感度は小さい。
- Hopper, Swimmer, Half-Cheetah, Humanoid, Walker2dにおいて、SDQNとDDPGはそれぞれの性能指標を示し、SDQNが最終報酬を高く達成することが多い。
- 多峰性の illustrative 環境で、SDQNはグローバル探索を実行し、局所最適化手法を妨げる局所最大を回避できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。