[论文解读] Interactive Learning from Policy-Dependent Human Feedback
论文表明人工反馈取决于学习者当前策略,并引入 COACH,一种基于演员-评论家的算法,在从依赖策略的反馈中学习时收敛,在仿真中以及在 TurtleBot 机器人上得到验证。
This paper investigates the problem of interactively learning behaviors communicated by a human teacher using positive and negative feedback. Much previous work on this problem has made the assumption that people provide feedback for decisions that is dependent on the behavior they are teaching and is independent from the learner's current policy. We present empirical results that show this assumption to be false -- whether human trainers give a positive or negative feedback for a decision is influenced by the learner's current policy. Based on this insight, we introduce {\em Convergent Actor-Critic by Humans} (COACH), an algorithm for learning from policy-dependent feedback that converges to a local optimum. Finally, we demonstrate that COACH can successfully learn multiple behaviors on a physical robot.
研究动机与目标
- 证明人工提供的反馈随学习者当前策略的变化而变化(策略相关反馈),不仅仅是行动质量。
- 开发并形式化一个能够从策略相关反馈中学习并收敛到局部最优的算法(COACH)。
- 在模拟领域和真实机器人实验中验证 COACH,以展示在从人类指导的交互学习中的可扩展性和鲁棒性。
提出的方法
- 将优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s) 作为人类反馈的模型。
- 推导更新规则 Δθt∝∇θπ(st,at) f t / π(st,at) ,当反馈等于 Qπ 或 Aπ 时可实现收敛。
- 给出 Real-time COACH,带奖励聚合和资格迹来处理可变反馈幅度、时延和稀疏反馈。
- 使用多条不同衰减率的资格迹,通过迹线将反馈应用于相关的过去动作(λ)。
- 在受控域中将 COACH 与 Q-learning 和 TAMER 进行比较,以评估对不同反馈策略的鲁棒性。
- 在 TurtleBot 上展示 Real-time COACH,使用五种学习行为,采用微分和递减反馈。
实验结果
研究问题
- RQ1在交互学习设置中,人工反馈是否取决于学习者的当前策略(策略相关反馈)?
- RQ2是否可以设计一个演员-评论家框架,在使用策略相关反馈训练时收敛(COACH)?
- RQ3在各种反馈策略下,COACH 相对于现有的 HCRL 方法(如 TAMER)表现如何?
- RQ4COACH 是否可以扩展到具有高频决策和感知噪声的真实机器人领域?
- RQ5实时策略相关反馈的实际注意事项(延迟、稀疏性、奖励幅度)有哪些?
主要发现
- 人工训练者提供的反馈的符号和幅度取决于学习者的策略,而不仅仅是行动质量。
- 通过利用基于优势的反馈模型,COACH 在使用策略相关反馈时收敛到局部最优。
- 在仿真中,COACH 在基于改进的反馈下比其他方法表现更好,而 TAMER 在基于行动的反馈下表现最好,在某些策略下也可能失败。
- Real-time COACH 使在 TurtleBot 上学习五种不同的行为成为可能,在两分钟内完成,使用微分和递减反馈。
- TAMER 在某些组成训练和诱导情景下可能遗忘先前学习的行为,而 COACH 在策略相关反馈下保持稳定学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。