[论文解读] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
DAC 通过使用离策略判别与离策略 actor-critic RL 在对抗性模仿学习中减少采样复杂性并使奖励去偏,用更少的环境交互提升性能。
We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.
研究动机与目标
- 在对抗性模仿学习中识别基于判别器的奖励估计中的偏差。
- 通过引入离策略组件降低策略与环境交互的样本复杂度。
- 通过显式处理吸收状态去偏学习得到的奖励。
- 证明 DAC 对嘈杂、多模态以及受限示范(包括人类数据)的鲁棒性。
- 在具有挑战性的模仿学习任务中展示最先进的性能。
提出的方法
- 使用带有回放缓冲区的离策略判别器,使占据测度与专家匹配。
- 学习吸收状态奖励,消除终止状态偏差并使对情节任务的处理更恰当。
- 将离策略强化学习算法(TD3)与 GAIL/AIRL 框架整合以提高样本效率。
- 应用梯度惩罚在离策略设置中稳定判别器训练。
- 使用由判别器提供奖励的 TD3 来训练策略,使从示范中高效学习成为可能。
实验结果
研究问题
- RQ1判别器基模仿学习中的奖励偏差如何影响跨任务的策略性能?
- RQ2离策略判别与离策略强化学习是否在维持或提升模仿质量的同时减少环境交互需求?
- RQ3显式的吸收状态奖励学习是否提升含存活奖金/惩罚的情节任务的表现?
- RQ4DAC 对嘈杂或亚最优的人类示范以及多模态的专家数据是否鲁棒?
主要发现
- DAC 在若干连续控制任务上达到模仿学习的最先进性能。
- DAC 将所需的环境交互量平均降低约10倍,与以往的基于策略的 AIL 方法相比。
- 使用吸收状态奖励学习在情节环境中提升表现并减小终止状态偏差。
- 即使示范嘈杂、多模态或次优,包括人类示范,DAC 仍然鲁棒。
- 实验表明在有限的专家示范(例如四条专家轨迹)下,DAC 超越 GAIL 基线。
- 奖励偏差分析表明忽略吸收状态奖励或使用某些基于判别器的奖励可能导致次优策略,而 DAC 解决了这个问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。