[論文レビュー] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
DACは、オフポリシー識別器とオフポリシーActor-Critic強化学習を導入し、敵対的模倣学習におけるサンプル複雑さを低減し、報酬推定のバイアスを取り除きます。吸収状態を扱い、従来のAIL手法よりも効率性と堅牢性が改善されることを示します。
We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.
研究の動機と目的
- 敵対的模倈学習における識別器ベースの報酬推定のバイアスを特定する。
- オフポリシー手法を用いてポリシーと環境の相互作用におけるサンプル複雑さを削減する。
- 吸収状態の報酬を明示的に学習して、学習された報酬関数のバイアスをなくす。
- ノイズのある、多峰性、制約された専門家デモンストレーション(人間デモを含む)に対して堅牢性を確保する。
提案手法
- オフポリシー識別器を組み込み、オフポリシーRLアルゴリズムで学習してサンプル複雑さを削減する。
- 吸収状態の報酬を明示的に学習して、端末遷移に対する暗黙の事前情報を排除する。
- エピソードタスクを適切に扱うため、専門家の軌跡を吸収状態でラップする。
- リプレイバッファからの遷移を用いて識別器を更新し、占有測度を一致させる。
- GAIL/AIRLに触発された報酬で方策を最適化するため、TD3をオフポリシーActor-Criticの骨格として用いる。
- オフポリシー設定で識別器の訓練を安定化させるために勾配ペナルティを適用する。
実験結果
リサーチクエスチョン
- RQ1識別器ベースの模倣学習における報酬バイアスが、エピソード環境でのタスク性能にどのように影響するか?
- RQ2オフポリシー訓練は模倣学習に必要な環境との相互作用回数を減らせるか?
- RQ3生存報酬や1ステップごとのペナルティを含むタスクで、吸収状態の報酬を学習することは模倣品質を改善するか?
- RQ4Discriminator-Actor-Criticフレームワークは、ノイズのある/サブ最適なデモンストレーション(人間データを含む)に対して堅牢か?
- RQ5標準ベンチマークにおけるGAILおよびAIRLとの互換性と性能向上はどの程度か?
主な発見
- DACは複数の模倣タスクで模倣学習手法の中で最先端の性能を達成する。
- DACはTRPO/PPOベースのGAILベースラインよりもサンプル効率が1桁向上している。
- はるかに少ない環境ステップで、DACはMuJoCoタスク全体でGAILベースラインと同等またはそれ以上の報酬を達成する。
- 吸収状態の報酬を学習することで、タスク特有の報酬設計の必要性を排除し、エピソード環境での性能を向上させる。
- DACはノイズのある、多峰性、および人間デモに対して堅牢性を示す。
- オフポリシー識別器訓練とTD3の組み合わせは、敵対的模倣学習における安定性と効率性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。