Skip to main content
QUICK REVIEW

[論文レビュー] Predictive Information Accelerates Learning in RL

Kuang-Huei Lee, Ian Fischer|arXiv (Cornell University)|Jul 24, 2020
Fuzzy Logic and Control Systems参考文献 40被引用数 24
ひとこと要約

本稿では、予測情報(過去と未来の観測間の相互情報量)の圧縮表現を、対照的条件付きエントロピー・ボトルネック目的関数を用いて学習することで、連続制御タスクにおけるサンプル効率を向上させる強化学習エージェント、PI-SACを提案する。この手法は、DM Control Suiteにおいて、特に原始ピクセルから学習する場合に、ベースラインを著しく上回るサンプル効率と一般化性能を達成する。

ABSTRACT

The Predictive Information is the mutual information between the past and the future, I(X_past; X_future). We hypothesize that capturing the predictive information is useful in RL, since the ability to model what will happen next is necessary for success on many tasks. To test our hypothesis, we train Soft Actor-Critic (SAC) agents from pixels with an auxiliary task that learns a compressed representation of the predictive information of the RL environment dynamics using a contrastive version of the Conditional Entropy Bottleneck (CEB) objective. We refer to these as Predictive Information SAC (PI-SAC) agents. We show that PI-SAC agents can substantially improve sample efficiency over challenging baselines on tasks from the DM Control suite of continuous control environments. We evaluate PI-SAC agents by comparing against uncompressed PI-SAC agents, other compressed and uncompressed agents, and SAC agents directly trained from pixels. Our implementation is given on GitHub.

研究の動機と目的

  • ピクセル観測からの深層強化学習におけるサンプル効率を、予測情報(過去と未来の間の相互情報量)を明示的にモデル化することで向上させること。
  • 予測情報(過去と未来の間の相互情報量)を圧縮することで、より良い表現学習とポリシー性能が得られるかどうかを調査すること。
  • 強化学習における予測表現学習において、圧縮と非圧縮の影響を評価すること。
  • 未学習タスクへの圧縮表現の一般化性能を評価すること。
  • 予測情報学習が、モデルフリー強化学習における訓練安定性と最終的性能を向上させることを示すこと。

提案手法

  • 本手法は、過去の観測の圧縮表現を学習するため、条件付きエントロピー・ボトルネック(CEB)目的関数の対照的変種を用いる。この表現は、将来の観測に対する予測力を最大化するように設計されている。
  • CEB目的関数は、条件付き相互情報量 I(X;Z|Y) を最小化すると同時に、I(Y;Z) を最大化するように設計されており、X は過去、Y は未来、Z は学習された表現を表す。
  • 真の事後分布 p(z|y) の変分近似が用いられ、微分可能訓練を可能にするためにバックワードエンコーダ b(z|y) が導入されている。
  • 予測表現は、ソフトアクタクリティカル(SAC)エージェントの入力として使用され、PI-SACフレームワークが構築される。
  • 対照的学習の向上を目的に、訓練中に画像増強が適用されている。
  • 補助的予測目的は、SACポリシーおよび価値関数と同時に、エンドツーエンドの訓練において最適化されている。

実験結果

リサーチクエスチョン

  • RQ1予測情報の圧縮表現を学習することで、ピクセルベース強化学習におけるサンプル効率が向上するか?
  • RQ2予測情報の圧縮は、連続制御における未学習タスクへの一般化にどのように影響するか?
  • RQ3性能向上は、特定に予測情報モデリングに起因するのか、それとも他の表現学習目的に起因するのか?
  • RQ4サンプル効率および最終的性能の観点から、PI-SACは最先端のモデルフリーおよびモデルベースベースラインをどのように上回るか?
  • RQ5予測情報学習の導入により、ピクセルベース強化学習における訓練安定性が向上するか?

主な発見

  • PI-SACは、DM Control Suiteの9つのタスクにおいて、SAC、Dreamer、DrQベースラインと比較して、顕著なサンプル効率の向上を達成した。
  • 圧縮されたPI-SACエージェントは、圧縮されていない同等のものよりも優れた性能を示し、圧縮が性能向上に不可欠であることを示した。
  • アブレーションスタディの結果、性能向上は主に予測情報モデリングと圧縮に起因しており、単なる表現学習に起因するものではないことが確認された。
  • PI-SACは未学習タスクへの一般化性能が向上し、圧縮された表現は圧縮されていないものよりも優れたゼロショット転送性能を達成した。
  • 本手法は訓練安定性を向上させ、追加コストを伴わず、原始ピクセルからの学習でも最終的性能を維持した。
  • 画像増強は、予測特徴の対照的学習を向上させ、サンプル効率の向上に寄与した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。