[论文解读] Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
DAC 引入一个离策略判别器和离策略演员-评论家强化学习,以降低样本复杂度并在对抗性模仿学习中去偏奖励估计。它处理吸收状态,并展示了相较于现有 AIL 方法的更高效率与鲁棒性。
We identify two issues with the family of algorithms based on the Adversarial Imitation Learning framework. The first problem is implicit bias present in the reward functions used in these algorithms. While these biases might work well for some environments, they can also lead to sub-optimal behavior in others. Secondly, even though these algorithms can learn from few expert demonstrations, they require a prohibitively large number of interactions with the environment in order to imitate the expert for many real-world applications. In order to address these issues, we propose a new algorithm called Discriminator-Actor-Critic that uses off-policy Reinforcement Learning to reduce policy-environment interaction sample complexity by an average factor of 10. Furthermore, since our reward function is designed to be unbiased, we can apply our algorithm to many problems without making any task-specific adjustments.
研究动机与目标
- 识别对抗性模仿学习中基于判别器的奖励估计偏差。
- 使用离策略方法降低策略与环境交互的样本复杂度。
- 通过对吸收状态的显式建模来去偏学习到的奖励函数。
- 确保对嘈杂、多模态和受约束的专家演示(包括人类演示)的鲁棒性。
提出的方法
- 结合离策略判别器并使用离策略 RL 算法进行训练,以降低样本复杂度。
- 显式学习吸收状态的奖励,以消除对结束转移的隐含先验。
- 用吸收状态包裹专家轨迹,以正确处理有时序任务。
- 使用来自回放缓冲区的转移来更新判别器,以匹配占据测度。
- 将 TD3 作为离策略演员-评论家骨干,用 GAIL/AIRL 启发的奖励进行策略优化。
- 在离策略设置中应用梯度惩罚以稳定判别器训练。
实验结果
研究问题
- RQ1在 episodic 环境中,基于判别器的模仿学习中的奖励偏差如何影响任务性能?
- RQ2离策略训练是否能降低模仿学习所需的环境交互次数?
- RQ3学习吸收状态奖励是否在具有生存奖励或每步惩罚的任务中提升模仿质量?
- RQ4判别器-演员-评论家框架对嘈杂或次优示例(包括人类数据)是否鲁棒?
- RQ5在标准基准上,DAC 相对于 GAIL 和 AIRL 的兼容性和性能提升如何?
主要发现
- 在若干模仿任务上,DAC 实现了模仿学习方法的最先进性能。
- DAC 的样本效率比基于 TRPO/PPO 的 GAIL 基线高出一个数量级。
- 在 MuJoCo 任务中,DAC 在显著更少的环境步数下达到与 GAIL 基线相当或更好的奖励。
- 学习吸收状态奖励消除了对特定任务奖励设计的需求,并提高了在 episodic 环境中的性能。
- 在机器人任务中,DAC 对嘈杂、多模态和人类示例表现出鲁棒性。
- 离策略判别器训练与 TD3 相结合,提高对抗性模仿学习的稳定性和效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。