Skip to main content
QUICK REVIEW

[論文レビュー] Deep Reinforcement and InfoMax Learning

Bogdan Mazoure, Rémi Tachet des Combes|arXiv (Cornell University)|Jun 12, 2020
Reinforcement Learning in Robotics被引用数 10
ひとこと要約

本論文は、時系列表現同士の相互情報量を最大化することで、将来の状態を予測するように訓練することにより強化学習エージェントの性能を向上させる時間的Deep InfoMax(tDIM)目的関数を提案する。C51に統合された際、継続的学習およびProcGen環境で性能が向上し、将来の予測表現が一般化能力と適応能力を高めることを示している。

ABSTRACT

We begin with the hypothesis that a model-free agent whose representations are predictive of properties of future states (beyond expected rewards) will be more capable of solving and adapting to new RL problems. To test that hypothesis, we introduce an objective based on Deep InfoMax (DIM) which trains the agent to predict the future by maximizing the mutual information between its internal representation of successive timesteps. We test our approach in several synthetic settings, where it successfully learns representations that are predictive of the future. Finally, we augment C51, a strong RL baseline, with our temporal DIM objective and demonstrate improved performance on a continual learning task and on the recently introduced Procgen environment.

研究の動機と目的

  • 表現学習を用いて将来の状態を予測するようにエージェントを訓練することで、新たな強化学習(RL)問題の解決および適応能力が向上するかどうかを調査すること。
  • 標準的なRLエージェントが期待報酬にのみ注目するという制限を補い、表現学習に将来状態の予測能力を組み込むこと。
  • 連続する内部表現間の相互情報量を最大化することにより、環境の時間的構造を捉えることができるモデルフリーのRL目的関数を開発すること。
  • このような予測表現が、複雑で動的な環境において、サンプル効率性および一般化能力を向上させるかどうかを評価すること。

提案手法

  • 時間的変種のDeep InfoMax(tDIM)を提案し、時刻tにおけるエージェントの内部表現と時刻t+1における将来状態表現との間の相互情報量を最大化する。
  • モーメンタムエンコーダを用いて訓練を安定化させることで、エージェントの表現が将来状態を予測するようになる対照的目的を定義する。
  • tDIM目的関数をC51 DQNアルゴリズムに正則化子として統合し、期待報酬と将来予測の両方を同時に最適化する。
  • 標準的なRL損失とtDIM対照的損失の組み合わせを用いてエージェントをエンドツーエンドで訓練し、方策が環境のダイナミクスに関する予測情報をエンコードする表現を学習できるようにする。

実験結果

リサーチクエスチョン

  • RQ1将来の状態を予測する表現を学習することで、標準的な報酬ベースの学習を超えて強化学習における一般化能力が向上するのだろうか?
  • RQ2連続する表現間の相互情報量最大化を組み込むことで、継続的学習タスクにおけるサンプル効率性とパフォーマンスが向上するのだろうか?
  • RQ3tDIM目的関数は、報酬が疎な環境やProcGenのような複雑な環境でどのように性能に影響を与えるのか?
  • RQ4予測表現は、消去的忘却を伴わずに新しいタスクに適応する能力をどれほど向上させるのか?

主な発見

  • tDIM目的関数は、合成環境において将来の状態を予測する表現を学習するようにエージェントを効果的に訓練し、将来の予測が表現品質を向上させるという仮説を裏付けた。
  • C51に統合された際、tDIMを強化したエージェントはベースラインと比較してProcGen環境で優れたパフォーマンスを達成し、多様な環境における一般化能力の向上を示した。
  • tDIMを拡張したエージェントは継続的学習ベンチマークで改善されたパフォーマンスを示し、連続するタスク間での記憶保持と適応能力の向上を示した。
  • この手法はサンプル効率性を向上させ、消去的忘却を軽減した。これは、予測表現がより強固で一般化可能な方策をサポートすることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。