QUICK REVIEW

[论文解读] Teaching Inverse Reinforcement Learners via Features and Demonstrations

Luis Haug, Sebastian Tschiatschek|arXiv (Cornell University)|Oct 21, 2018

Reinforcement Learning in Robotics被引用 39

一句话总结

本文引入了“教学风险”这一概念，用于量化在逆强化学习（IRL）中，当教师与学习者的特征表示不匹配时导致的性能下降。提出TRGreedy算法，通过选择最具信息量的特征进行教学，最小化教学风险，使学习者即使在缺乏完整世界观知识的情况下，也能恢复接近最优的策略。

ABSTRACT

Learning near-optimal behaviour from an expert's demonstrations typically relies on the assumption that the learner knows the features that the true reward function depends on. In this paper, we study the problem of learning from demonstrations in the setting where this is not the case, i.e., where there is a mismatch between the worldviews of the learner and the expert. We introduce a natural quantity, the teaching risk, which measures the potential suboptimality of policies that look optimal to the learner in this setting. We show that bounds on the teaching risk guarantee that the learner is able to find a near-optimal policy using standard algorithms based on inverse reinforcement learning. Based on these findings, we suggest a teaching scheme in which the expert can decrease the teaching risk by updating the learner's worldview, and thus ultimately enable her to find a near-optimal policy.

研究动机与目标

解决当学习者的特征空间与教师不一致时，逆强化学习（IRL）中导致次优策略学习的挑战。
将由于世界观不匹配导致的教师与学习者之间性能差距形式化为一种新度量：教学风险。
设计一种教学策略，使教师能够通过选择并教授最相关特征，改善学习者的世界观。
设计一种高效算法（TRGreedy），在无需了解学习者内部学习算法完整信息的情况下，最小化教学风险。
通过实证结果证明，基于教学风险选择教学特征，可显著提升策略性能，优于随机选择或基于性能的特征选择。

提出的方法

将教学风险定义为学习者与教师世界观下最优策略之间最大性能差距的上界。
将教学风险形式化为学习者特征空间与真实奖励函数的函数，利用学习者特征矩阵的核（kernel）进行表达。
提出TRGreedy，一种基于减少教学风险程度选择教学特征的贪心算法，而非基于预测性能。
利用学习者特征矩阵的核高效计算教学风险，使算法独立于学习者所使用的具体IRL算法。
将特征教学与标准IRL流程结合：在教学特征后，学习者使用示范数据推断奖励函数并优化策略。
在具有合成示范数据和不同特征集的网格世界环境中评估该算法，与随机选择和基于性能的贪心选择方法进行对比。

实验结果

研究问题

RQ1如何量化在IRL中，由于教师与学习者特征表示不匹配所导致的性能下降？
RQ2是否存在一种系统化的方法，用于度量由于世界观不匹配导致次优策略学习的风险？
RQ3教师应教授哪些特征，以最小化教师与学习者策略之间的性能差距？
RQ4基于最小化教学风险的教学策略，是否能优于基于预期性能提升或随机选择的策略？
RQ5所提出的教学算法对学习者内部学习机制的不确定性有多大的鲁棒性？

主要发现

教学风险为在学习者与教师世界观下最优策略之间的性能差距提供了紧致且可计算的上界。
当教学风险较小时，标准IRL算法即使在存在世界观不匹配的情况下，也能恢复接近最优的策略。
在所有实验中，TRGreedy均优于随机特征选择，显著提升了相对策略性能。
TRGreedy的性能与PerfGreedy（对每个特征模拟学习者的策略更新）相当，但运行时间大幅降低，因为它避免了对学习者算法的模拟。
随着每一轮教学特征的增加，教学风险单调递减，且TRGreedy比随机选择更有效地降低教学风险。
该方法对学习者学习算法的不确定性具有鲁棒性，因为它仅依赖于学习者特征矩阵的核，而不依赖于具体使用的优化过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。