[论文解读] Anticipating many futures: Online human motion prediction and synthesis for human-robot collaboration
本文提出一种基于RGB-D数据的条件变分自编码器(CVAE),用于在线人类运动预测与合成,通过生成最多提前1660毫秒的多个合理未来运动轨迹,实现预测性人机协作。该模型学习了一个解耦的低维潜在空间,使可读且可预测的运动被聚类,从而无需目标特定的训练数据即可实现目标推断,并随时间推移提高预测准确性。
Fluent and safe interactions of humans and robots require both partners to anticipate the others' actions. A common approach to human intention inference is to model specific trajectories towards known goals with supervised classifiers. However, these approaches do not take possible future movements into account nor do they make use of kinematic cues, such as legible and predictable motion. The bottleneck of these methods is the lack of an accurate model of general human motion. In this work, we present a conditional variational autoencoder that is trained to predict a window of future human motion given a window of past frames. Using skeletal data obtained from RGB depth images, we show how this unsupervised approach can be used for online motion prediction for up to 1660 ms. Additionally, we demonstrate online target prediction within the first 300-500 ms after motion onset without the use of target specific training data. The advantage of our probabilistic approach is the possibility to draw samples of possible future motions. Finally, we investigate how movements and kinematic cues are represented on the learned low dimensional manifold.
研究动机与目标
- 实现机器人实时预测人类运动,以支持安全且流畅的人机协作。
- 通过在不确定性下建模动态非线性运动依赖关系,克服基于轨迹分类方法的局限性。
- 在无需目标特定训练数据的情况下,预测人类运动并推断动作目标。
- 学习一个低维潜在表征,以解耦人类运动的可读性与可预测性。
- 证明对未来的运动进行概率采样可提升意图推断能力,并支持长期规划。
提出的方法
- 在从RGB-D图像中提取的骨骼序列上训练条件变分自编码器(CVAE),以基于过去观测预测未来运动。
- 模型采用时间编码器-解码器架构,以捕捉人类运动数据中的序列依赖关系。
- 通过近似推断推断潜在变量,实现高效的在线预测与不确定性估计。
- 通过从学习到的潜在变量后验分布中采样,生成未来运动。
- 对潜在空间应用主成分分析(PCA),以可视化和分析可读性与可预测性的解耦情况。
- 通过最近邻方法对预测运动序列的终点进行分类,实现目标推断。
实验结果
研究问题
- RQ1深度生成模型能否从观测运动数据中实时预测多个合理的未来人类运动轨迹?
- RQ2在不使用目标特定训练数据的情况下,模型在多大程度上能推断出抓取动作的目标?
- RQ3CVAE学习到的潜在空间是否实现了可读性与可预测运动模式的解耦?
- RQ4在运动早期阶段,可读性运动线索在多大程度上提升了目标预测性能?
- RQ5模型的不确定性估计与多未来轨迹采样能否增强人机协作中的预测性决策?
主要发现
- CVAE成功实现了对未来1660毫秒内人类运动的高保真预测,支持人机交互中的长期规划。
- 对于可读性运动(目标2),在运动开始后200毫秒内目标推断准确率达到100%;对于可预测性运动,800毫秒后准确率达到97.02%。
- 可读性运动轨迹在学习到的潜在空间中被一致聚类,尤其在自然抓取动作中表现明显;而非常自然的运动(如向左抓取)则表现出重叠的表征。
- 即使在运动开始后200毫秒,模型对可读性运动(目标2)的分类准确率仍达100%,证明了早期意图识别能力。
- 可预测性运动轨迹在潜在空间中的分离程度优于可读性运动,表明可预测性比可读性更稳健地被编码。
- 训练数据中缺乏非常自然运动,可能是导致非常自然可读性运动表征分离效果差的原因,表明需要更丰富的训练数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。