Skip to main content
QUICK REVIEW

[論文レビュー] Coverage as a Principle for Discovering Transferable Behavior in Reinforcement Learning

Víctor Campos, Pablo Sprechmann|arXiv (Cornell University)|May 4, 2021
Reinforcement Learning in Robotics被引用数 4
ひとこと要約

本論文では、強化学習における転移可能な行動を発見するために、事前学習中にカバレッジ最大化を用いることを提案する。状態-行動領域を多様に探索するようにポリシーを訓練することで、得られる行動は、下流のタスクにおいて効果的な活用と構造的探索を可能にし、特に非自明な探索を要する複雑な環境では、サンプル効率と報酬の両面で顕著に向上する。

ABSTRACT

Designing agents that acquire knowledge autonomously and use it to solve new tasks efficiently is an important challenge in reinforcement learning. Unsupervised learning provides a useful paradigm for autonomous acquisition of task-agnostic knowledge. In supervised settings, representations discovered through unsupervised pre-training offer important benefits when transferred to downstream tasks. Given the nature of the reinforcement learning problem, we explore how to transfer knowledge through behavior instead of representations. The behavior of pre-trained policies may be used for solving the task at hand (exploitation), as well as for collecting useful data to solve the problem (exploration). We argue that pre-training policies to maximize coverage will result in behavior that is useful for both strategies. When using these policies for both exploitation and exploration, our agents discover solutions that lead to larger returns. The largest gains are generally observed in domains requiring structured exploration, including settings where the behavior of the pre-trained policies is misaligned with the downstream task.

研究の動機と目的

  • タスク固有の監視なしに強化学習タスク間で知識を転移する課題に対処すること。
  • 表現ではなく行動が強化学習における転移可能な知識のキャリアとして機能しうるかを検討すること。
  • 状態-行動空間のカバレッジを最大化するように事前学習したポリシーが、より効果的な下流の行動をもたらすかを調査すること。
  • 構造的探索を要する環境におけるサンプル効率とパフォーマンスを向上させること。
  • 行動の不一致が一般的な分野において、カバレッジ駆動の事前学習の有効性を評価すること。

提案手法

  • 内因的興味または内因的報酬に基づく目的関数を用いて、状態-行動空間のカバレッジを最大化するようにポリシーを事前学習する。
  • 事前学習済みポリシーを、直接の活用およびファインチューニング中のデータ収集の両方で利用する。
  • 下流タスクにおける探索のための事前分布として、事前学習済みの行動を用い、構造的かつ多様な軌道を促進する。
  • カバレッジを内因的信号の主要な構成要素とするように、内因的および外因的報酬の組み合わせでポリシーを訓練する。
  • 探索の複雑さの異なる複数の環境で、転移性能を評価する。
  • 事前学習済みポリシーの行動を、下流の強化学習アルゴリズムにおける探索を誘導するものとして用い、データ効率を向上させる。

実験結果

リサーチクエスチョン

  • RQ1カバレッジ最大化による事前学習は、下流タスクにおける活用と探索の両方に有用な行動を生成できるか?
  • RQ2構造的探索を要する環境において、カバレッジベースの事前学習がサンプル効率と最終報酬を向上させるか?
  • RQ3タスク固有のポリシーと比較して、カバレッジ最適化されたポリシーの行動は、転移設定でどのように異なるか?
  • RQ4行動が下流タスクと不一致である場合に、カバレッジベースの事前学習が特に有益な環境のタイプは何か?
  • RQ5カバレッジ駆動の行動は、下流の強化学習エージェントの一般化可能な事前分布として機能できるか?

主な発見

  • カバレッジを最大化するように事前学習したポリシーは、下流タスクにおける活用と探索の両方で非常に効果的な行動を生成する。
  • 特に、標準的な行動がタスクと不一致になりがちな構造的探索を要する環境で、最も顕著なパフォーマンス向上が観察された。
  • カバレッジ最適化済みの事前学習ポリシーを用いたエージェントは、ベースライン手法と比較して、特に報酬がスパarsな状況でも高い報酬を達成する。
  • 本手法はデータ効率を向上させ、高いパフォーマンスに到達するための環境インタラクション回数を削減する。
  • 行動転移が特徴転送よりも重要となる状況では、カバレッジベースの事前学習が表現ベースの転移手法を上回る。
  • 本手法は、連続制御や複雑なダイナミクスを有するナビゲーションタスクを含む多様な環境で、頑健に機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。