[论文解读] Learning Trajectory Preferences for Manipulators via Iterative Improvement
本文提出了一种协同主动在线学习框架,使机器人能够通过迭代、增量式的反馈学习用户对操作轨迹的偏好——用户仅需对机器人当前的轨迹提出微小改进,而非提供完整的最优示范。尽管仅需弱反馈,该算法仍能实现可证明的低遗憾(low regret),并在高自由度机械臂执行未见过的超市结账任务时表现出良好的泛化能力。
We consider the problem of learning good trajectories for manipulation tasks. This is challenging because the criterion defining a good trajectory varies with users, tasks and environments. In this paper, we propose a co-active online learning framework for teaching robots the preferences of its users for object manipulation tasks. The key novelty of our approach lies in the type of feedback expected from the user: the human user does not need to demonstrate optimal trajectories as training data, but merely needs to iteratively provide trajectories that slightly improve over the trajectory currently proposed by the system. We argue that this co-active preference feedback can be more easily elicited from the user than demonstrations of optimal trajectories, which are often challenging and non-intuitive to provide on high degrees of freedom manipulators. Nevertheless, theoretical regret bounds of our algorithm match the asymptotic rates of optimal trajectory algorithms. We demonstrate the generalizability of our algorithm on a variety of grocery checkout tasks, for whom, the preferences were not only influenced by the object being manipulated but also by the surrounding environment.\footnote{For more details and a demonstration video, visit: \url{http://pr.cs.cornell.edu/coactive}}
研究动机与目标
- 解决在高自由度机械臂任务中学习用户特定轨迹偏好的挑战,其中难以提供最优示范。
- 通过使用增量式反馈而非完整的最优轨迹示范,克服传统示范学习(LfD)中用户负担过重的局限。
- 开发一种协同主动学习框架,使机器人能够仅通过弱的、次优的反馈实时学习用户偏好。
- 通过推导与最优轨迹算法相当的遗憾边界,为学习性能提供理论保证。
- 证明所学偏好模型在新任务和新环境中具有泛化能力,即使机器人在训练期间未见过具体任务。
提出的方法
- 采用协同主动学习框架,机器人提出一条轨迹,用户则反馈一条稍有改进的版本,而非提供最优版本。
- 使用包含机器人构型、物-物关系以及时间行为特征(如加加速度、姿态稳定性)的结构化特征空间建模用户偏好。
- 应用一种偏好学习算法(TPP),基于迭代反馈学习轨迹的评分函数,并在每次用户改进后在线更新模型。
- 利用末端执行器稳定性、与障碍物的接近程度、避免易碎或尖锐物体等轨迹特征,捕捉任务特定且上下文敏感的偏好。
- 整合两种反馈模态:通过仿真器进行的重排序(re-ranking)和在机器人上进行的零重力动力学教学(zero-G kinesthetic teaching),以支持多样的用户交互风格。
- 该算法保持的遗憾边界以与若提供最优示范时相同的渐近速率衰减,确保理论上的收敛至真实偏好函数。
实验结果
研究问题
- RQ1机器人能否仅通过增量式、次优反馈而非完整最优示范,学习用户对操作轨迹的偏好?
- RQ2尽管使用弱反馈,所提出的协同主动学习框架是否能实现与最优轨迹学习算法相当的遗憾边界?
- RQ3所学偏好模型在未见任务和环境中的泛化能力有多强?
- RQ4重排序与零重力反馈的结合在现实机器人实验中,是否能有效提升用户训练机器人的效率?
- RQ5该系统能否学习到有意义的轨迹偏好,以考虑物体属性(如易碎性、尖锐性)和环境约束(如靠近人类)?
主要发现
- 用户平均仅需 3 次重排序和 2 次零重力反馈(平均 5.5 分钟)即可将 Baxter 机器人训练至令人满意水平,证明了实际可行性。
- 系统在仅 5 次反馈后即超越 Oracle-SVM 性能,用户对轨迹质量的自评得分为 3.8–4.4(5 分制量表)。
- 跨用户评分平均为 3.2–4.0,表明用户偏好差异极小,说明模型捕捉到了一致且可泛化的偏好。
- 该算法泛化能力出色:在未见过的环境或新物体下,未经训练的 MMP-online 和 TPP 模型仍优于 Manual 和噪声 LfD 等基线方法。
- 在批量实验中,预训练的 TPP 模型在 nDCG@3 上平均达到 0.85,显著优于其他基线方法,且在物体和环境均改变时仍保持强大泛化能力。
- TPP 算法的理论遗憾边界以与最优算法相同的速率衰减,证明弱反馈不会损害渐近学习性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。