QUICK REVIEW

[論文レビュー] Making Deep Q-learning methods robust to time discretization

Corentin Tallec, Léonard Blier|arXiv (Cornell University)|Jan 28, 2019

Reinforcement Learning in Robotics参考文献 17被引用数 33

ひとこと要約

本論文は Q-learning アプローチが小さな時間ステップで崩壊することを示し、連続時間のロバストなオフポリシーアルゴリズム Deep Advantage Updating (DAU) を提案する。それはさまざまな時間離離散化の範囲に渡って有効であり、理論的裏付けと経験的検証がある。

ABSTRACT

Despite remarkable successes, Deep Reinforcement Learning (DRL) is not robust to hyperparameterization, implementation details, or small environment changes (Henderson et al. 2017, Zhang et al. 2018). Overcoming such sensitivity is key to making DRL applicable to real world problems. In this paper, we identify sensitivity to time discretization in near continuous-time environments as a critical factor; this covers, e.g., changing the number of frames per second, or the action frequency of the controller. Empirically, we find that Q-learning-based approaches such as Deep Q- learning (Mnih et al., 2015) and Deep Deterministic Policy Gradient (Lillicrap et al., 2015) collapse with small time steps. Formally, we prove that Q-learning does not exist in continuous time. We detail a principled way to build an off-policy RL algorithm that yields similar performances over a wide range of time discretizations, and confirm this robustness empirically.

研究の動機と目的

連続時間近傍の環境における DRL の時間離散化感度を特定する。
時間離散化が 0 に近づくと Q-learning の V 関数への崩壊を証明する。
さまざまな時間ステップに対してロバストなオフポリシーアルゴリズムを開発・正当化する。
連続時間の限界と実用的なアルゴリズム（DAU）の理論的基盤を提供する。
提案手法のロバスト性を多様な環境で実証的に検証する。

提案手法

delta t を用いた連続時間 MDP の離散化として近傍連続環境を定義し、意味のある極限を保つよう報酬と割引をスケールする。
A_delta_t(s,a) = (Q_delta_t(s,a) - V_delta_t(s)) / delta t を定義し、V との整合性を課して学習可能で不変な順位信号を得る。
Q を Q_theta(s,a) = V_theta(s) + delta t * A_psi(s,a) とパラメータ化し、同定性のために A(s, pi(s)) = 0 を課す。
A_psi(s,a) = barA_psi(s,a) - barA_psi(s, pi(s)) という再パラメータ化を用いて一貫した行動の順位を保証する。
連続アクションには Ornstein-Uhlenbeck ノイズの連続時間極限を、離散アクションには離散化アプローチを採用して時間ステップに不変な探索を導入する。
収束する連続時間極限を保証するために学習率スケーリング eta_V_delta_t, eta_A_delta_t を delta t に比例させる。

実験結果

リサーチクエスチョン

RQ1近傍連続環境において Q-learning ベースの手法を時間離散化に不変にすることは可能か。
RQ2delta t が 0 に近づくとき Q-function ベースの手法にはどのような理論的限界が存在するか。
RQ3さまざまな時間ステップ範囲で性能を維持するオフポリシーアルゴリズムを設計できるか。
RQ4連続時間極限を達成するために探索と学習率スケジュールをどのようにスケーリングすべきか。
RQ5delta t が変化しても提案手法は標準的な制御ベンチマークでロバスト性を実証的に示すか。

主な発見

Q-learning は近傍連続時間で V-関数へ崩壊し、連続時間で挙動が不安定になる。
delta t でスケーリングされたアドバンテージ (A_delta_t) は行動の順位情報を保持し、delta t -> 0 の極限で退化しない。
V と delta t A による再パラメータ化された Q は、時刻に応じた同定性と安定した学習を保証する。
離散・連続両方のアクションに対して有意義な連続時間極限をもたらす時間ステップ不変の探索スキームを提供する。
Deep Advantage Updating (DAU) は、Vanilla DQN や DDPG と比較して、時間離散化に対するロバスト性が改善され、複数の制御タスクで優位性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。