Skip to main content
QUICK REVIEW

[论文解读] Learning from Demonstrations via Capability-Aware Goal Sampling

Ye Duan, Yuning Wang|arXiv (Cornell University)|Jan 13, 2026
Reinforcement Learning in Robotics被引用 0
一句话总结

Cago 引入面向能力的目标采样,以引导从示范中学习,形成适应性课程表,从而在长时程稀疏任务上提高样本效率和最终性能。它采用与演示对齐的 Go-Explore,结合 BC 探索者和基于世界模型的想象循环。

ABSTRACT

Despite its promise, imitation learning often fails in long-horizon environments where perfect replication of demonstrations is unrealistic and small errors can accumulate catastrophically. We introduce Cago (Capability-Aware Goal Sampling), a novel learning-from-demonstrations method that mitigates the brittle dependence on expert trajectories for direct imitation. Unlike prior methods that rely on demonstrations only for policy initialization or reward shaping, Cago dynamically tracks the agent's competence along expert trajectories and uses this signal to select intermediate steps--goals that are just beyond the agent's current reach--to guide learning. This results in an adaptive curriculum that enables steady progress toward solving the full task. Empirical results demonstrate that Cago significantly improves sample efficiency and final performance across a range of sparse-reward, goal-conditioned tasks, consistently outperforming existing learning from-demonstrations baselines.

研究动机与目标

  • 激励在长时域、稀疏奖励任务中进行模仿学习,其中精确模仿不现实。
  • 提出一个框架,使用演示来搭建面向目标的学习,而非直接模仿。
  • 开发一个面向能力的机制,用以对介于代理当前能力边界的中间目标进行采样。
  • 通过目标预测器实现自动化的测试时目标推断,以实现对示范端点之外的泛化。

提出的方法

  • 将演示表示为结构化的路线图并跟踪代理在每个演示阶段的可达能力。
  • 维护访问字典 Dict_visit,以监控代理已接近的演示观测。
  • 从一个以代理当前能力为中心、覆盖在某段演示上的能力感知区域 G_cap 中采样中间目标 g。
  • 通过两阶段的 Go-Explore 回放训练一个目标条件策略 pi^G,以达到采样的目标:Go 阶段朝向 g,Explore 阶段使用 BC 探索者。
  • 结合世界模型 Dreamer 风格的想象回放循环,通过在演示区域周围的想象轨迹来增强训练数据,结合时序距离奖励 D_t(s,g)。
  • 引入目标预测器 P_phi,在测试时从当前观测推断可行的目标,从而在没有真实最终目标的情况下实现泛化。
Figure 1: Illustration of the Cago. Left: Directly setting the final goal as the agent’s target often leads to failure, as the current policy $\pi^{G}$ may not yet be capable of reaching it. The shaded region illustrates the set of states currently reachable under $\pi^{G}$ . Attempting to reach $g_
Figure 1: Illustration of the Cago. Left: Directly setting the final goal as the agent’s target often leads to failure, as the current policy $\pi^{G}$ may not yet be capable of reaching it. The shaded region illustrates the set of states currently reachable under $\pi^{G}$ . Attempting to reach $g_

实验结果

研究问题

  • RQ1Cago 是否在使用演示的替代方式的现有模仿学习基线上具更好表现?
  • RQ2能力感知的目标采样是否能与代理的学习进展对齐,从而提高训练效率?
  • RQ3能力感知的目标采样和 BC-Explorer 组件对 Cago 的性能有多关键?

主要发现

  • Cago 在 MetaWorld 的非常困难任务上,在最终性能和学习效率方面持续优于基线。
  • 在 Adroit 任务中,Cago 在扩展训练后达到更高的最终性能,超过了类似的 Dreamer 基方法。
  • ManiSkill 任务显示,Cago 是给定演示下实现高成功率的唯一方法。
  • 消融实验表明去除能力感知的目标采样或 BC-Explorer 会显著降低性能,突显了它们的重要性。
Figure 2: The workflow of the goal predictor $\mathcal{P}_{\phi}$ .
Figure 2: The workflow of the goal predictor $\mathcal{P}_{\phi}$ .

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。