[论文解读] Learning human behaviors from motion capture by adversarial imitation
本文将生成对抗模仿学习(GAIL)扩展到从部分观测的动作捕捉数据中训练拟人化动作策略,实现躯体转移以及在更高层控制器中作为子技能重用。
Rapid progress in deep reinforcement learning has made it increasingly feasible to train controllers for high-dimensional humanoid bodies. However, methods that use pure reinforcement learning with simple reward functions tend to produce non-humanlike and overly stereotyped movement behaviors. In this work, we extend generative adversarial imitation learning to enable training of generic neural network policies to produce humanlike movement patterns from limited demonstrations consisting only of partially observed state features, without access to actions, even when the demonstrations come from a body with different and unknown physical parameters. We leverage this approach to build sub-skill policies from motion capture data and show that they can be reused to solve tasks when controlled by a higher level controller.
研究动机与目标
- 在高维人形体上无需手工设计奖励的情况下,激发并实现人性化、拟人化的运动生成。
- 开发一个在部分状态特征下工作且不需要动作数据的模仿学习流程。
- 展示躯体转移、对嘈杂的动作捕捉数据的鲁棒性,以及在更高层控制中对已学习子技能的重用。
- 通过多行为学习展示在多种行为之间形成鲁棒过渡的能力。
提出的方法
- 将 GAIL 扩展到部分观测,并为多行为策略学习引入上下文变量。
- 训练一个随机神经策略,使其输出致动器的高斯动作分布。
- 使用 TRPO 进行策略更新,以及由区分演示数据与策略数据的判别器推导出的对抗性奖励。
- 提供从基于动作捕捉的演示到低级控制器的端到端流程,然后与用于任务学习的高级控制器集成。
- 在包括复杂人形体在内的多体 MuJoCo 物理引擎中进行训练和评估。
- 暴露端部(从根部到脚、手、头部的向量)特征以及惯性传感器,以使模仿在嘈杂的动作捕捉中更稳定。
实验结果
研究问题
- RQ1当演示仅有部分状态观测且没有动作时,GAIL immitation learning 是否能成功?
- RQ2模仿是否对演示者与 imitator 之间的体动力学差异具有鲁棒性(躯体转移)?
- RQ3是否可以通过以上下文为条件的判别器学习并在多种行为之间鲁棒地进行转换?
- RQ4从动作捕捉学习的低级技能能否被更高层控制器重用以解决新任务?
- RQ5复杂人形体在有限且嘈杂的动作捕捉数据下学习并仍然展现出人类般的动作的能力有多强?
主要发现
- 在部分状态观测下的模仿学习无需访问动作即可匹配行为。
- 对身体不变特征进行判别器条件化,能够实现跨身体的模仿与在不同自由度配置中的再目标定位。
- 具备上下文变量的多行为训练在技能之间产生鲁棒过渡,并支持在轨迹中切换。
- 基于动作捕捉的学习为复杂人形体带来更自然的步态和更具能力的起身行为,相较于随机初始化或纯 RL。
- 基于端效器的特征表示在嘈杂的动作捕捉中稳定模仿,并提升学习动作的人类化感知。
- 从动作捕捉学习的子技能可以被更高层控制器组合和调制,以执行导航、转向、跑步和攀楼等任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。