[論文レビュー] Extrapolating Beyond Suboptimal Demonstrations via Inverse Reinforcement Learning from Observations
T-REXは、ランク付けされたサブ最適デモンストレーションから報酬関数を学習し、最高のデモンストレーションを超えて外挿することで、実データの報酬や行動ラベルなしにデモンストレーターを上回る学習者を可能にする。
A critical flaw of existing inverse reinforcement learning (IRL) methods is their inability to significantly outperform the demonstrator. This is because IRL typically seeks a reward function that makes the demonstrator appear near-optimal, rather than inferring the underlying intentions of the demonstrator that may have been poorly executed in practice. In this paper, we introduce a novel reward-learning-from-observation algorithm, Trajectory-ranked Reward EXtrapolation (T-REX), that extrapolates beyond a set of (approximately) ranked demonstrations in order to infer high-quality reward functions from a set of potentially poor demonstrations. When combined with deep reinforcement learning, T-REX outperforms state-of-the-art imitation learning and IRL methods on multiple Atari and MuJoCo benchmark tasks and achieves performance that is often more than twice the performance of the best demonstration. We also demonstrate that T-REX is robust to ranking noise and can accurately extrapolate intention by simply watching a learner noisily improve at a task over time.
研究の動機と目的
- デモンストレーターの意図をそのまま模倣するのではなく、デモンストレーターの基礎となる意図を推測して学習を動機づける。
- ランキングされた軌跡を用いて最高時のデモを超える外挿を可能にする報酬学習法を開発する。
- 推定された報酬を最適化することで、下流のRLエージェントがデモンストレーターを上回る性能を達成できるようにする。
提案手法
- Trajectory-ranked Reward EXtrapolation (T-REX)を導入し、ランキングデモンストレーションから状態ベースの報酬関数をニューラルネットワークで学習する。
- 報酬ネットワークを、ランキングベースの損失を最小化することで訓練する。高ランクの軌跡ほど予測リターンが高くなるように促す、softmax cross-entropy (Bradley–Terry/Luce–Shephardスタイル)の目的関係を使用する。
- 部分的な軌跡を用いて訓練例とデータ拡張を増やし、ランキングされたデモンストレーションから多くのペアワイズの嗜好を形成する。
- 学習した報酬を深層RL (PPO)と組み合わせ、デモンストレーションを上回る方策を得る。
- 報酬学習を正規化しRL最適化前に出力を正規化するため、5つのニューラルネットワークのアンサンブルを用いる。
実験結果
リサーチクエスチョン
- RQ1ランク付けされた、潜在的にサブ最適なデモンストレーションを用いて、観測された最良の軌跡を超える外挿を行う報酬関数を学習できるかを検証する。
- RQ2ランキングを用いた観測からの学習により、高次元タスクでデモンストレーターを超える方策を得られるかを検証する。
- RQ3T-REXはランク付けノイズや時間ベースのランキング、または人間提供のノイズ付きランキングからの学習にどの程度頑健かを検証する。
- RQ4デモンストレーターの行動や真の報酬信号なしで動作し、模倣ベースラインを上回ることができるかを検証する。
主な発見
- T-REXはMuJoCoタスクでPPOと組み合わせると、最高のデモンストレーションの性能を2倍以上達成することが多い。
- T-REXはMuJoCoとAtariのほとんどのタスクと段階で、最先端の模倣学習およびIRL手法(BCO、GAIL)を上回る。
- T-REXは中程度のランキングノイズに対して頑健で、時系列順序の(ノイズの多い)ランキングや人間提供のノイズ付きラベルからも学習できる。
- Atariでは、T-REXは8ゲーム中7つでBCOおよびGAILを上回り、いくつかのタイトルで最良デモンストレーションの2倍以上の得点を取ることが多かった。
- 報酬の外挿は、いくつかのゲームで真のリターンと高い相関を示し、観測された軌跡を超える効果的な方策改善を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。