QUICK REVIEW

[論文レビュー] Ray Interference: a Source of Plateaus in Deep Reinforcement Learning

Tom Schaul, Diana Borsa|arXiv (Cornell University)|Apr 25, 2019

Reinforcement Learning in Robotics参考文献 34被引用数 39

ひとこと要約

本論文は深層強化学習における学習ダイナミクス現象を分析し、データ生成と共有関数近似器の結合が負の干渉を引き起こし、性能の停滞（レイ干渉）につながることを示す。条件を特徴づけ、鞍点との関係を示し、解決策を論じる。

ABSTRACT

Rather than proposing a new method, this paper investigates an issue present in existing learning algorithms. We study the learning dynamics of reinforcement learning (RL), specifically a characteristic coupling between learning and data generation that arises because RL agents control their future data distribution. In the presence of function approximation, this coupling can lead to a problematic type of 'ray interference', characterized by learning dynamics that sequentially traverse a number of performance plateaus, effectively constraining the agent to learn one thing at a time even when learning in parallel is better. We establish the conditions under which ray interference occurs, show its relation to saddle points and obtain the exact learning dynamics in a restricted setting. We characterize a number of its properties and discuss possible remedies.

研究の動機と目的

関数近似を伴うRLにおける学習ダイナミクス上の課題として、レイ干渉を動機づけて定義する。
最小限の二コンテキストバンディット設定を分析し、厳密な学習ダイナミクスを導出する。
停滞が発生する条件と、ワナーイートオール領域が学習の遅さにどう寄与するかを特徴づける。
現象を因子化された目的関数やRLの複数コンポーネントへ一般化する。
レイ干渉の普遍性・検出方法・潜在的な解決策について議論する。

提案手法

最も単純な(K x n)バンディットをオンポリシー勾配更新でモデル化し、厳密な連続時間ダイナミクスを導出する。
成分勾配のコサイン類似度によって干渉を定義し、鞍点を同定する。
(2x2)バンディットの勾配ダイナミクスを導出して、鞍点付近の固定点と停滞を示す。
高階微分を介して停滞の概念を導入し、それらの吸引域を特徴づける。
結合した成分を含む因子化された目的関数へ一般化し、停滞およびWTA領域の条件を分析する。
RLの結合を教師あり学習およびオフポリシー系と比較し、結合と干渉が停滞を生み出す様子を示す。

実験結果

リサーチクエスチョン

RQ1共有された関数近似器を用いたRLにおいて、レイ干渉と停滞はどの条件で生じるか？
RQ2目的成分間の干渉とパフォーマンスと学習進捗の結合は、停滞をどのように生み出すか？
RQ3単純なモデルでレイ干渉を予測または検出し、より広いRL設定へ一般化できるか？
RQ4干渉を減らし学習ダイナミクスを分離する実践的な解決策は何か？
RQ5より多くの成分や異なる表現で、レイ干渉はどのようにスケールするか？

主な発見

レイ干渉は、成分間の負の干渉と将来データ生成への結合が学習の軌道を鞍点付近へ通過させ、緩やかな停滞を生み出す場合に発生する。
(2x2)バンディットでは、勾配が持続的な負の干渉を示し、固定点が角（コーナー）に、鞍点が(0,1)および(1,0)に現れる。
停滞は学習加速が符号を変える転換点に沿って発生し、それらの平坦さはそれらのポイント近くの学習進捗の勾配に比例して変化する。
タブular表現やオフポリシー／教師付き設定を用いると、レイ干渉は緩和または排除され、結合と干渉が停滞の主要な要因であることを示唆する。
成分数Kを増やすと停滞が広く強くなり、完全に干渉する設定では学習段階に応じて停滞が指数関係で長くなる。
オフポリシー学習や現在のポリシーのデータ生成を崩すデータセットは、結合を減らし、それによって停滞を緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。