QUICK REVIEW

[论文解读] Explore, Exploit or Listen: Combining Human Feedback and Policy Model to Speed up Deep Reinforcement Learning in 3D Worlds

Zhiyu Lin, Brent Harrison|arXiv (Cornell University)|Sep 12, 2017

Reinforcement Learning in Robotics参考文献 15被引用 27

一句话总结

该论文提出了一种混合强化学习框架，通过在3D环境中对人类建议的置信度和一致性检查，动态平衡探索、策略利用与人类反馈的整合。通过建模反馈的可靠性，该方法在Minecraft中加速了训练，减少了性能方差，并在人类输入不准确或缺失时仍保持鲁棒性。

ABSTRACT

We describe a method to use discrete human feedback to enhance the performance of deep learning agents in virtual three-dimensional environments by extending deep-reinforcement learning to model the confidence and consistency of human feedback. This enables deep reinforcement learning algorithms to determine the most appropriate time to listen to the human feedback, exploit the current policy model, or explore the agent's environment. Managing the trade-off between these three strategies allows DRL agents to be robust to inconsistent or intermittent human feedback. Through experimentation using a synthetic oracle, we show that our technique improves the training speed and overall performance of deep reinforcement learning in navigating three-dimensional environments using Minecraft. We further show that our technique is robust to highly innacurate human feedback and can also operate when no human feedback is given.

研究动机与目标

解决在Minecraft等复杂3D环境中深度强化学习（DRL）的数据效率低下问题。
在无需人类教师持续或完美输入的前提下，将离散的人类反馈（建议）整合到DRL中。
基于反馈置信度和一致性，开发一种平衡探索、策略利用与倾听人类反馈的策略。
在人类反馈不一致、间歇性或不准确的情况下仍保持鲁棒性，同时维持性能提升。
即使未提供反馈，也使智能体能够有效学习，将沉默视为一种负面反馈形式。

提出的方法

扩展离策略DRL，引入一种决策机制，根据反馈置信度和一致性，选择探索、利用DQN策略或倾听人类建议。
使用置信度检查，通过将建议与智能体当前的Q值估计进行比较，评估人类建议的可靠性。
在多个反馈实例间实施一致性检查，以检测并过滤不一致或错误的建议。
将人类反馈作为奖励信号，按适当比例缩放，避免其主导环境奖励信号。
采用基于置信度的反馈调度策略，结合ε-greedy探索，随着策略置信度提高，逐步减少反馈请求次数。
使用合成模拟器模拟不同准确度的人类训练者，以实现对反馈鲁棒性的受控评估。

实验结果

研究问题

RQ1如何在无需持续或完美反馈的前提下，有效将人类建议整合到3D环境中的深度强化学习中？
RQ2哪些策略能够平衡探索、策略利用与反馈倾听，以提升学习速度与稳定性？
RQ3在不一致或不准确的人类反馈下，系统表现如何？是否仍能超越非交互式基线？
RQ4反馈置信度与一致性检查对学习性能与方差有何影响？
RQ5当未提供任何反馈时，智能体能否有效学习？系统如何处理沉默？

主要发现

与基线相比，所提方法显著降低了训练过程中的性能方差，在‘hard’地图上第90百分位性能最高提升达30%。
即使在50%模拟器准确率（即随机反馈）的情况下，该方法仍能达到非交互式基线的性能水平，表明其对噪声具有鲁棒性。
仅使用置信度的方法优于基线和仅使用一致性的变体，表明当反馈不可靠时，一致性检查可能反而降低性能。
反馈请求在早期探索阶段达到峰值，并随着DQN置信度提高而下降，表明反馈调度具有自适应性。
当未提供任何反馈时，系统仍保持有效，因为沉默被解释为错误建议，从而实现在无主动人类输入下的学习。
在复杂3D导航任务中，该方法将收敛训练时间最多减少40%，尤其在反馈准确时效果更显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。