QUICK REVIEW

[論文レビュー] The problem with DDPG: understanding failures in deterministic environments with sparse rewards

Guillaume Matheron, Nicolas Perrin|arXiv (Cornell University)|Nov 26, 2019

Reinforcement Learning in Robotics参考文献 25被引用数 61

ひとこと要約

この論文は、DDPGのような決定論的な actor-critic 手法が、報酬が得られても活用されずデッドロックサイクルを生む、単純で疎報酬環境でなぜ失敗し得るかを形式化し、潜在的な解決策を提案する。

ABSTRACT

In environments with continuous state and action spaces, state-of-the-art actor-critic reinforcement learning algorithms can solve very complex problems, yet can also fail in environments that seem trivial, but the reason for such failures is still poorly understood. In this paper, we contribute a formal explanation of these failures in the particular case of sparse reward and deterministic environments. First, using a very elementary control problem, we illustrate that the learning process can get stuck into a fixed point corresponding to a poor solution. Then, generalizing from the studied example, we provide a detailed analysis of the underlying mechanisms which results in a new understanding of one of the convergence regimes of these algorithms. The resulting perspective casts a new light on already existing solutions to the issues we have highlighted, and suggests other potential approaches.

研究の動機と目的

DDPGが単純な1Dのおもちゃ問題を用いて決定論的・疎報酬環境でどのように失敗するかを説明する。
報酬を利用する初期の失敗の後に、 actor も critic も進化しなくなるデッドロックの機序を分析する。
識別された失敗モードを連続-action の actor-critic アルゴリズム全般へ一般化する。
このような設定でのサイクリックな収束を緩和する潜在的解決策と実践的影響を検討する。

提案手法

DDPG の失敗を研究するために、連続状態・連続行動空間を持ち、疎報酬関数を備えた単純な1Dおもちゃ環境を導入する。
学習ダイナミクスを分析し、 actor が飽和した方策へ収束し、 critic が報酬情報を伝播できなくなるデッドロックサイクルを特定する。
Q が Q^π に収束し、部分的に定数となって actor の勾配が消失することを示す、簡略化した前提を用いた形式的な議論と証明を提供する。
critic における Q′(s′,π(s′)) を用いた特定の更新と決定論的方策勾配がエージェントを貧弱な方策へ閉じ込めることを実証する。
deterministic max 演算子を除去するか、 stochastic な方策を導入する（SAC のように）ことでデッドロックを回避する方法を示す。
近似関数がこの問題をどのように増幅・緩和するか、関数近似と識別した失敗モードがどのように相互作用するかを論じる。

実験結果

リサーチクエスチョン

RQ1連続-action・疎報酬環境において、決定論的な方策勾配更新でどのような失敗モードが生じるか？
RQ2 critic 更新ターゲット(Q′(s′,π(s′)))と決定論的 actor 更新の相互作用がデッドロックにどのように寄与するか？
RQ3代替アルゴリズム（確率的な actor、明示的な最大化、補助タスクなど）は、単純なベンチマークや疎報酬バリアントの連続制御タスクで観察される失敗を緩和できるか？
RQ4 関数近似と過/過小推定バイアスが循環収束機構にどの程度影響するか？
RQ5これらの失敗モードは1Dの toy 以外のより複雑な環境（疎 Reacher-v2 や HalfCheetah-v2 など）へ一般化するか？

主な発見

DDPGは、極めて単純な1Dのおもちゃタスクでも疎報酬で失敗し、シード間で成功率が100%未満に留まる。
報酬に遭遇しても、 actor も critic も報酬を効果的に伝播できずデッドロック状態に入ることがある。
critic は Q^π に向かって部分的に定数関数となり、 actor の現在の方策で勾配がほぼ0となり方策改善が停滞する。
報酬の早期発見は最適方策へ収束することと強く相関し、遅い報酬発見は失敗の可能性を高める。
決定論的な max-actor 更新を置換するか、SAC のような確率的方策を用いることで、 critic/actor 更新における Q(s′,π(s′)) 依存を避けデッドロックを解消できる。
関数近似器は discontinuities の平滑化や局所的極値の導入により、問題を増幅させることも緩和することもあり得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。