[论文解读] Generating Long-term Trajectories Using Deep Hierarchical Networks
本文提出一个分层策略网络,联合建模宏观目标和微观动作,并具注意力机制,在篮球中实现现实的长期轨迹生成并优于非分层基线。它表明纳入宏观目标能提升长期规划和短期动作预测。
We study the problem of modeling spatiotemporal trajectories over long time horizons using expert demonstrations. For instance, in sports, agents often choose action sequences with long-term goals in mind, such as achieving a certain strategic position. Conventional policy learning approaches, such as those based on Markov decision processes, generally fail at learning cohesive long-term behavior in such high-dimensional state spaces, and are only effective when myopic modeling lead to the desired behavior. The key difficulty is that conventional approaches are "shallow" models that only learn a single state-action policy. We instead propose a hierarchical policy class that automatically reasons about both long-term and short-term goals, which we instantiate as a hierarchical neural network. We showcase our approach in a case study on learning to imitate demonstrated basketball trajectories, and show that it generates significantly more realistic trajectories compared to non-hierarchical baselines as judged by professional sports analysts.
研究动机与目标
- 在高维时空设置中激发对长期轨迹建模的需求。
- 提出一个将宏观目标与微观动作分离的分层策略类别。
- 将策略实现为一个分层神经网络,具有通过宏观目标引导微观动作的注意力机制。
- 在专业篮球轨迹模仿上评估该方法,并与非分层基线及真实数据进行比较。
提出的方法
- 定义一个具有宏观目标 g 和微观动作 a 的两时标策略框架。
- 对原始微观动作 u 进行建模,并使用非线性传输和合成函数 (a = ψ(u, φ(g))) 将 u 和宏观目标 g 合成微观动作 a。
- 通过 Hadamard 乘积实现注意力机制,将宏观目标指引整合到微观动作分布中 (P(a|u,g) 通过 P(raw)(u) 和 P(macro)(g))。
- 离散状态与目标空间以实现可行学习,使用 1-hot 场地占用表示和粗略宏观目标。
- 将宏观与微观策略实现为卷积循环网络,带有一个注意力模块,引导微观动作朝向宏观目标。
- 在多阶段训练分层网络(微观、宏观、注意力),对宏观目标使用弱标签,然后端到端微调。
实验结果
研究问题
- RQ1分离宏观目标与微观动作的分层策略是否能比扁平化策略生成更真实的长期轨迹?
- RQ2基于注意力的宏观目标与微观动作交互是否提升长期规划与短期动作准确性?
- RQ3该模型在真实专业轨迹数据上的表现相对于非分层基线和地面真实数据如何?
- RQ4弱宏观目标标签对训练和 rollout 质量有何影响?
主要发现
- 分层策略网络(HPN)生成的回放具有更真实的曲线轨迹和更长的向宏观目标推进的长期规划,相较基线。
- HPN-注意力在4步前瞻测试中提高微观动作预测准确性,相较非分层基线。
- 大多数比较中,人类专家更偏好 HPN 的回放,并认为 HPN 与地面真实轨迹竞争。
- 预训练阶段使用的弱宏观目标标签在提升长期 rollout 质量方面有代价,一定程度上降低了短期预测准确性。
- 该模型提供可解释的动力学,显示宏观目标通过注意力机制引导微观规划。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。