Skip to main content
QUICK REVIEW

[論文レビュー] Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning

Noah Siegel, Jost Tobias Springenberg|arXiv (Cornell University)|Apr 30, 2020
Reinforcement Learning in Robotics参考文献 28被引用数 55
ひとこと要約

本論文は、データセット内で過去に成功した行動に偏る方策を導入することで、連続制御におけるオフライン強化学習の安定性を高めるための行動モデリング事前知識—Advantage-Weighted Behavior Model (ABM)—を提案する。本手法は、競合するベースラインよりもベンチマークタスクおよび実世界のロボット学習で性能を向上させ、矛盾するデータソースが存在する状況でも有効である。

ABSTRACT

Off-policy reinforcement learning algorithms promise to be applicable in settings where only a fixed data-set (batch) of environment interactions is available and no new experience can be acquired. This property makes these algorithms appealing for real world problems such as robot control. In practice, however, standard off-policy algorithms fail in the batch setting for continuous control. In this paper, we propose a simple solution to this problem. It admits the use of data generated by arbitrary behavior policies and uses a learned prior -- the advantage-weighted behavior model (ABM) -- to bias the RL policy towards actions that have previously been executed and are likely to be successful on the new task. Our method can be seen as an extension of recent work on batch-RL that enables stable learning from conflicting data-sources. We find improvements on competitive baselines in a variety of RL tasks -- including standard continuous control benchmarks and multi-task learning for simulated and real-world robots.

研究の動機と目的

  • 連続制御のオフライン(バッチ)設定における標準的なオフポリシー強化学習アルゴリズムの不安定性を解消すること。
  • 新しい環境とのインタラクションが不可能な状況でも、任意の行動方針から安定した学習を可能にすること。
  • 行動方針の知識を必要とせず、歴史的データを活用して高パフォーマンスな行動に方針学習を誘導する手法を開発すること。
  • 固定データセットのみを用いて、マルチタスクおよび実世界のロボット学習シナリオにおけるサンプル効率とパフォーマンスを向上させること。

提案手法

  • 過去の成功に基づいて行動の尤度を推定する行動モデルを学習し、アドバンテージ重み付けを用いて高パフォーマンスな行動を優先する。
  • ABMを方策最適化目的関数に事前知識として統合し、データセット内で成功した行動に学習を偏らせる。
  • ABM事前知識を用いたオフポリシーRLアルゴリズムを用いて、オンラインインタラクションなしに固定データセット上で安定した学習を可能にする。
  • 行動の歴史的パフォーマンスに応じた重み付けにより、原始的な頻度ではなく、行動を重み付けすることで、矛盾するデータソースに対応可能にする。
  • 環境のロールアウトを必要とせず、データセットの軌道を用いてABMを学習し、行動事前知識をモデル化する。
  • SACやTD3などの標準的なオフラインRLアルゴリズムとABM事前知識を組み合わせることで、サンプル効率と最終的なパフォーマンスを向上させる。

実験結果

リサーチクエスチョン

  • RQ1学習された行動事前知識は、連続制御タスクにおけるオフライン強化学習の安定性とパフォーマンスを向上させることができるか?
  • RQ2多様または矛盾する行動方針を持つデータセットで学習した場合、ABM事前知識は既存のオフラインRL手法と比べてどのように差をつけるか?
  • RQ3ABM事前知識は、複数のタスクおよび実世界のロボット制御設定にどの程度一般化可能か?
  • RQ4ABMにおけるアドバンテージ重み付け機構は、固定データセット内で高パフォーマンスな行動を効果的に同定・優先できるか?

主な発見

  • 提案手法は、MuJoCo環境を含む標準的な連続制御ベンチマークタスクにおいて、競合するベースラインよりも一貫した改善を達成した。
  • ABM事前知識により、データセットに矛盾するまたは劣悪な行動方針が含まれる状況でも安定した学習が可能となった。
  • 本手法は、シミュレーテッドおよび実世界のロボットを含むマルチタスク学習シナリオにおいて優れたパフォーマンスを示した。
  • アドバンテージ重み付けされた行動モデルは、新しいタスクで成功する可能性の高い行動を効果的に同定・優先した。
  • 追加の環境インタラクションや行動クローンの事前学習を必要とせず、最終的な方策パフォーマンスが向上した。
  • 本手法は多様なデータ分布に一般化でき、データセット内の行動方針の変動に対しても頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。