[论文解读] Deep Reinforcement Learning from Policy-Dependent Human Feedback
本文提出 Deep COACH,一种深度强化学习算法,使智能体能够在高维环境(如 Minecraft)中从与策略相关的真人反馈中学习复杂行为。通过在 COACH 框架中引入自编码器、改进的回放缓冲区和熵正则化,该方法实现了样本高效的训练——仅需少于 100 个真人反馈信号,便在 15 分钟内成功完成任务。
To widen their accessibility and increase their utility, intelligent agents must be able to learn complex behaviors as specified by (non-expert) human users. Moreover, they will need to learn these behaviors within a reasonable amount of time while efficiently leveraging the sparse feedback a human trainer is capable of providing. Recent work has shown that human feedback can be characterized as a critique of an agent's current behavior rather than as an alternative reward signal to be maximized, culminating in the COnvergent Actor-Critic by Humans (COACH) algorithm for making direct policy updates based on human feedback. Our work builds on COACH, moving to a setting where the agent's policy is represented by a deep neural network. We employ a series of modifications on top of the original COACH algorithm that are critical for successfully learning behaviors from high-dimensional observations, while also satisfying the constraint of obtaining reduced sample complexity. We demonstrate the effectiveness of our Deep COACH algorithm in the rich 3D world of Minecraft with an agent that learns to complete tasks by mapping from raw pixels to actions using only real-time human feedback in 10-15 minutes of interaction.
研究动机与目标
- 在高维观测空间(如 3D 环境中的原始像素输入)中实现从真人反馈进行深度强化学习。
- 解决将人类参与的强化学习扩展到需要非线性函数逼近的复杂领域时的样本效率挑战。
- 在保持低样本复杂度的同时,确保在真人反馈稀疏且与策略相关的条件下仍能实现稳健学习。
- 在真实、沉浸式的环境(如 Minecraft)中验证该方法的有效性,使智能体在无奖励塑造的情况下从实时真人反馈中学习。
- 与现有方法(如 Deep TAMER 和原始 COACH)相比,评估所提方法在反馈效率和行为收敛性方面的表现。
提出的方法
- 通过引入自编码器将高维原始像素观测压缩为低维潜在表示,将 COACH 算法适配于深度神经网络策略。
- 修改回放缓冲区,优先存储近期交互经验并减少分布偏移,从而提升样本效率。
- 在策略网络中应用高熵正则化,以促进探索并防止过早收敛至次优行为。
- 将真人反馈视为优势函数的无偏估计,将人类视为演员-评论者框架中的评论者。
- 使用随机梯度下降端到端训练策略,损失函数基于真人反馈信号更新策略。
- 实现一种反馈机制,使真人训练者提供实时、与策略相关的反馈——随着智能体性能提升,反馈频率逐渐降低,体现边际收益递减的特性。
实验结果
研究问题
- RQ1COACH 算法能否在不牺牲样本效率的前提下,成功扩展至高维观测空间中的深度神经网络策略?
- RQ2自编码器与改进回放缓冲区的集成如何影响深度 HRL 中的学习稳定性与收敛速度?
- RQ3与传统奖励塑造相比,是否能通过‘行为改善后反馈减少’的策略相关真人反馈实现更高效的训练?
- RQ4在反馈效率、行为规律性以及对灾难性遗忘的鲁棒性方面,Deep COACH 与 Deep TAMER 相比表现如何?
- RQ5在复杂 3D 环境中,人类反馈在多大程度上可以随时间减少,同时仍能确保智能体收敛至期望行为?
主要发现
- Deep COACH 在真实人机交互 10 至 15 分钟内成功完成 Minecraft 环境中的任务,且反馈信号少于 100 个。
- 随着智能体行为的改善,真人反馈随时间减少,证实了反馈的策略相关性,验证了算法与人类反馈模式的一致性。
- 在边界巡逻任务中,Deep COACH 智能体表现出振荡且规律的巡逻行为,表明其有效学习了循环运动模式,而 Deep TAMER 则表现出混乱或间歇性停顿的行为。
- Deep COACH 展现出对灾难性遗忘导致的临时性能下降具有鲁棒性,可在数次更新内自我纠正;而 Deep TAMER 常出现不可逆的遗忘。
- 在训练后期,Deep COACH 的反馈频率降至接近零,表明智能体已收敛至满足人类训练者期望的策略。
- 该算法在样本效率与复杂 3D 任务中的行为质量方面,均优于原始 COACH(受限于线性函数逼近)和 Deep TAMER。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。