[論文レビュー] Reinforcement Learning from Imperfect Demonstrations
tldr: NACはデモンストレーションと環境報酬からの学習を、Q-functionを正規化することにより統合し、欠陥のあるデモンストレーションからの頑健な学習を可能にし、デモンストレーターの性能を超える改善を実現します。
Robust real-world learning should benefit from both demonstrations and interactions with the environment. Current approaches to learning from demonstration and reward perform supervised learning on expert demonstration data and use reinforcement learning to further improve performance based on the reward received from the environment. These tasks have divergent losses which are difficult to jointly optimize and such methods can be very sensitive to noisy demonstrations. We propose a unified reinforcement learning algorithm, Normalized Actor-Critic (NAC), that effectively normalizes the Q-function, reducing the Q-values of actions unseen in the demonstration data. NAC learns an initial policy network from demonstrations and refines the policy in the environment, surpassing the demonstrator's performance. Crucially, both learning from demonstration and interactive refinement use the same objective, unlike prior approaches that combine distinct supervised and reinforcement losses. This makes NAC robust to suboptimal demonstration data since the method is not forced to mimic all of the examples in the dataset. We show that our unified reinforcement learning algorithm can learn robustly and outperform existing baselines when evaluated on several realistic driving games.
研究の動機と目的
- 実世界の学習を堅牢に促進するため、デモンストレーションと環境との相互作用の両方を活用する。
- 別個の教師あり損失と強化学習損失を分離せず、一つの統一された目的関数を開発する。
- 最適性を要求せず、欠陥があるまたはノイズのあるデモンストレーションからの学習を可能にする。
- デモンストレーションと環境ベースの洗練を跨いで頑健な性能を示す。
提案手法
- Q-functionを正規化してデモンストレーションから見えない行動を減らす Normalized Actor-Critic (NAC)を提案する。
- 統一された損失を用いたソフトポリシー勾配フレームワークからNAC更新を導出する。
- 外部の模倣損失を使わず、訓練を安定化させるためにターゲットネットワークとリプレイバッファを使用する。
- 同じ目的関数を介して、環境遷移とともにオフポリシー学習へデモンストレーションを組み込む。
- NACが欠陥のあるデモンストレーションから学習し、相互作用を通じて方策を洗練できることを示す。
実験結果
リサーチクエスチョン
- RQ1NACはデモンストレーションと環境ベースの報酬の両方から効果的に学習できるか?
- RQ2NACはサブ最適またはノイズのあるデモンストレーションに対して頑健か?
- RQ3駆動関連タスクで imitation-plus-RL のベースラインを上回るか?
- RQ4デモンストレーションが限られているまたはノイズがある場合、NACは既存のアプローチとどう比較されるか?
主な発見
- 適度なデモンストレーションでの運転タスクにおいてNACは従来法を上回り、純粋な模倣ではなく報酬を用いることでノイズのあるデモンストレーションを許容する。
- 統一された目的により、補助的な教師付き模倣損失を用いずデモンストレーションと環境から学習できる。
- NACは欠陥のあるデモンストレーションに対して頑健で、環境との相互作用を通じてデモンテレーターの性能を超えることができる。
- おもちゃ的および現実的な運転環境で、デモンストレーションデータが限られ、報酬の選択が異なる場合でもNACは強い性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。