[論文レビュー] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
DACは adversarial imitation learning において off-policy discrimination と off-policy actor-critic RL を用いることでサンプル複雑性を低減し、環境相互作用を少なくして性能を向上させる。
We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.
研究の動機と目的
- 識別器ベースの報酬推定における偏りを敵対的模倣学習で特定する。
- ポリシー–環境間の相互作用のサンプル複雑性をオフポリシー成分を導入して低減する。
- 吸収状態を明示的に扱うことで学習報酬の偏りを解消する。
- DAC の頑健性をノイズの多い、マルチモーダルな、制約のあるデモンストレーション(人間データを含む)に対して示す。
- 難易度の高い模倣学習タスクで最先端の性能を示す。
提案手法
- オフポリシー識別器をリプレイバッファで訓練し、occupancy measuresを専門家と一致させる。
- 終端状態からのバイアスを除去し、エピソディックタスクの適切な取り扱いを可能にするための吸収状態報酬を学習する。
- GAIL/AIRLフレームワークとオフポリシーRLアルゴリズム(TD3)を統合してサンプル効率を向上させる。
- オフポリシー設定で識別器の訓練を安定化させるために勾配ペナルティを適用する。
- 識別器が提供する報酬を使ってポリシーを訓練する TD3 を用い、デモンストレーションからの効率的な学習を実現する。
実験結果
リサーチクエスチョン
- RQ1報酬の偏りが識別器ベースの模倣学習においてタスク間でポリシー性能にどのような影響を与えるのか?
- RQ2オフポリシー識別とオフポリシーRLは環境相互作用の要件を削減しつつ、模倣の質を維持または向上させられるか?
- RQ3明示的な吸収状態報酬学習は生存ボーナスやペナルティを伴うエピソディックタスクの性能を改善するか?
- RQ4DACはノイズのある、マルチモーダル、サブオプティマルなデモンストレーションを含む場合にも頑健か?
主な発見
- DACは複数の連続制御タスクで最先端の模倣学習性能を達成。
- DACは prior on-policy AIL 手法と比較して、必要な環境相互作用を平均約10倍削減。
- 吸収状態報酬学習はエピソディック環境での性能を向上させ、終端状態から生じるバイアスを緩和する。
- DACはノイズがある、マルチモーダル、またはサブオプティマルなデモンストレーション(人間のデモを含む)の場合でも頑健である。
- 実験は、制限された専門家デモンストレーション(例:4つの専門家軌跡)下でDACがGAILベースラインを上回ることを示している。
- 報酬バイアス分析は、吸収状態の報酬を無視する、または特定の識別器ベース報酬を使用すると最適でないポリシーにつながる可能性があり、DACはそれを対処する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。