Skip to main content
QUICK REVIEW

[论文解读] Theoretically-Grounded Policy Advice from Multiple Teachers in Reinforcement Learning Settings with Applications to Negative Transfer

Yusen Zhan, Haitham Bou Ammar|arXiv (Cornell University)|Apr 13, 2016
Reinforcement Learning in Robotics参考文献 9被引用 31
一句话总结

本文提出了一种理论基础坚实的多教师强化学习框架,其中学生智能体在平衡自身探索的同时,利用多个教师的建议。该框架推导出遗憾边界,证明了优质教师可加速学习,而劣质教师则增加样本复杂度,并首次在策略建议设置中对负迁移进行了量化。

ABSTRACT

Policy advice is a transfer learning method where a student agent is able to learn faster via advice from a teacher. However, both this and other reinforcement learning transfer methods have little theoretical analysis. This paper formally defines a setting where multiple teacher agents can provide advice to a student and introduces an algorithm to leverage both autonomous exploration and teacher's advice. Our regret bounds justify the intuition that good teachers help while bad teachers hurt. Using our formalization, we are also able to quantify, for the first time, when negative transfer can occur within such a reinforcement learning setting.

研究动机与目标

  • 解决策略建议迁移学习方法中缺乏理论基础的问题。
  • 克服需依赖最优教师的局限,使学生能够从非最优教师处学习。
  • 将单教师建议模型正式推广至具有理论保证的多教师设置。
  • 量化策略建议中的负迁移,识别其发生条件。
  • 提供一种学生可通过结合自主探索超越教师表现的框架。

提出的方法

  • 在弱通信MDP中形式化多教师建议模型,扩展单教师框架。
  • 提出一种算法,通过加权组合策略平衡学生自主性与教师建议。
  • 推导出依赖教师质量的遗憾边界,表明优质教师可降低样本复杂度。
  • 利用由多个教师构建的总教师策略指导学习,同时允许学生进行探索。
  • 通过理论分析表明,即使教师表现次优,也不会阻碍收敛至最优。
  • 利用在线强化学习遗憾最小化方法,正式分析性能与迁移质量。

实验结果

研究问题

  • RQ1在多教师策略建议设置中,负迁移在何种条件下发生?
  • RQ2教师策略的质量如何影响学生智能体的样本复杂度与遗憾?
  • RQ3即使由非最优教师指导,学生是否仍能达到最优行为?
  • RQ4如何为弱通信MDP中的多教师策略建议建立理论保证?
  • RQ5在该框架中,教师质量与学习效率之间存在何种正式关系?

主要发现

  • 所提出的算法即使在所有教师均非最优的情况下仍能达到最优,展现出对劣质建议的鲁棒性。
  • 遗憾边界表明,教师质量越低,学习性能越差,定量验证了劣质教师阻碍学习的直觉。
  • 首次在策略建议设置中正式量化负迁移,并在公式(6)中推导出其发生条件。
  • 该方法优于先前假设存在“足够好”教师或无法超越教师表现的方法。
  • 理论分析确认单教师建议模型是所提多教师框架的特例。
  • 该框架使学生通过自主探索超越教师表现,与基于模仿的方法不同。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。