[論文レビュー] Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations
論文はD-REXを導入する。ノイズを注入した行動クローンを通じて自動的にランク付きデモを生成し、報酬関数を学習することで、追加の監視なしにデモ提供者を上回る方針を得る。いつデモ提供者よりも優れた模倣が可能かについての理論を提供し、MuJoCoとAtariのベンチマークで強力な経験的向上を示す。
The performance of imitation learning is typically upper-bounded by the performance of the demonstrator. While recent empirical results demonstrate that ranked demonstrations allow for better-than-demonstrator performance, preferences over demonstrations may be difficult to obtain, and little is known theoretically about when such methods can be expected to successfully extrapolate beyond the performance of the demonstrator. To address these issues, we first contribute a sufficient condition for better-than-demonstrator imitation learning and provide theoretical results showing why preferences over demonstrations can better reduce reward function ambiguity when performing inverse reinforcement learning. Building on this theory, we introduce Disturbance-based Reward Extrapolation (D-REX), a ranking-based imitation learning method that injects noise into a policy learned through behavioral cloning to automatically generate ranked demonstrations. These ranked demonstrations are used to efficiently learn a reward function that can then be optimized using reinforcement learning. We empirically validate our approach on simulated robot and Atari imitation learning benchmarks and show that D-REX outperforms standard imitation learning approaches and can significantly surpass the performance of the demonstrator. D-REX is the first imitation learning approach to achieve significant extrapolation beyond the demonstrator's performance without additional side-information or supervision, such as rewards or human preferences. By generating rankings automatically, we show that preference-based inverse reinforcement learning can be applied in traditional imitation learning settings where only unlabeled demonstrations are available.
研究の動機と目的
- 模倣学習がデモ提供者の性能を超えられる条件を理論的に提供する。
- IRLにおける報酬関数の曖昧さをデモンストレーションのランク付けが低減することを示す。
- 人間のラベルを必要とせず自動的にランク付けを生成する実用的な方法(D-REX)を開発する。
- シミュレートされたロボティクスとAtariのベンチマークでD-REXを経験的に検証する。
- D-REXを標準の模倣学習およびデモ提供者の性能と比較する。
提案手法
- ラベルなしデモンストレーションからポリシーを学習するために行動クローンを用いる。
- クローンされたポリシーへノイズを注入して、性能レベルの異なる軌跡を作成する。
- ノイズレベルから軌跡のランク付けを自動的に導出する(ノイズが多いほど性能は悪化)。
- Trajectory-ranked Reward Extrapolation (T-REX) を適用して自動ランク付けから報酬関数を学習する。
- learned 報酬関数を用いた強化学習でポリシーを最適化する。
実験結果
リサーチクエスチョン
- RQ1模倣学習がデモンストレーターの性能を超えられる条件は何か?
- RQ2ノイズ注入によって自動生成されたラベルなしのランク付けは、デモンストレーターを超える外挿を可能にする報酬関数を回復するのに十分な信号を提供するか?
- RQ3D-REXは追加の監視なしでさまざまなベンチマークで標準の模倣学習およびデモ提供者を上回るか?
主な発見
| タスク | デモ平均 | デモ最高 | D-REX 平均 | D-REX 標準偏差 | BC 平均 | BC 標準偏差 | GAIL 平均 | GAIL 標準偏差 |
|---|---|---|---|---|---|---|---|---|
| Hopper | 1029.1 | 1167.9 | 2072.0 | 1574.2 | 943.8 | 208.4 | 2700.2 | 692.3 |
| HalfCheetah | 187.7 | 187.7 | 972.9 | 96.1 | -115.9 | 179.8 | 85.2 | 86.0 |
| Beam Rider | 1524.0 | 2216.0 | 7220.0 | 2221.9 | 1268.6 | 776.6 | 1778.0 | 787.1 |
| Breakout | 34.5 | 59.0 | 94.7 | 16.5 | 29.75 | 10.1 | 0.3 | 0.4 |
| Enduro | 85.5 | 134.0 | 247.9 | 88.4 | 83.4 | 27.0 | 62.4 | 24.0 |
| Pong | 3.7 | 14.0 | -9.5 | 9.8 | 8.6 | 9.5 | -3.4 | 3.8 |
| Q*bert | 770.0 | 850.0 | 22543.8 | 7434.1 | 1013.75 | 721.1 | 737.5 | 311.4 |
| Seaquest | 524.0 | 720.0 | 801.0 | 4.4 | 530.0 | 109.8 | 554.0 | 108.8 |
| Space Invaders | 538.5 | 930.0 | 1122.5 | 501.2 | 426.5 | 187.1 | 364.8 | 139.7 |
- D-REXはMuJoCoおよびAtariのタスクでデモ提供者を上回る性能を達成することが多く、ほとんどの場合BCおよびGAILを上回る。
- 自動的なノイズのある摂動はポリシー性能の単調な低下を生じさせ、信頼性のあるランク付けを可能にする(epsilon-greedyノイズ)。
- 自動ランク付けから学習した報酬は地上 truth のリターンと相関し、意味のある特徴を明らかにする。
- D-REXは大きな外挿を実現する。Atariタスクでの平均改善は知っている抜け道のあるゲームを除くと約39%程度、MuJoCoベンチマークでも大きな gains。
- 実験ではデモ提供者または標準IRLベースの模倣法よりもD-REXの最悪ケース性能が高い。
- D-REXは報酬や人間の嗜好なしでデモ提供者を超える外挿を達成した初めてのアプローチ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。