QUICK REVIEW

[论文解读] A Neural Network Approach to Missing Marker Reconstruction in Human Motion Capture

Taras Kucherenko, Jonas Beskow|arXiv (Cornell University)|Mar 7, 2018

Human Pose and Action Recognition参考文献 23被引用 28

一句话总结

本文提出一种基于LSTM和基于时间窗口的神经网络的深度学习方法，通过利用人体运动中的时空相关性，重建人体动作捕捉数据中缺失的标记点。该方法在重建长时间缺失标记点方面达到最先进性能，即使在复杂运动中亦表现优异，并支持在线处理，无需依赖未来数据，优于传统线性方法和先前的神经网络方法。

ABSTRACT

Optical motion capture systems have become a widely used technology in various fields, such as augmented reality, robotics, movie production, etc. Such systems use a large number of cameras to triangulate the position of optical markers.The marker positions are estimated with high accuracy. However, especially when tracking articulated bodies, a fraction of the markers in each timestep is missing from the reconstruction. In this paper, we propose to use a neural network approach to learn how human motion is temporally and spatially correlated, and reconstruct missing markers positions through this model. We experiment with two different models, one LSTM-based and one time-window-based. Both methods produce state-of-the-art results, while working online, as opposed to most of the alternative methods, which require the complete sequence to be known. The implementation is publicly available at https://github.com/Svito-zar/NN-for-Missing-Marker-Reconstruction .

研究动机与目标

为解决由于遮挡或传感器故障导致光学动作捕捉系统中持续存在的标记点丢失问题。
开发一种数据驱动方法，学习人体运动中复杂的时空相关性，以提高标记点重建的准确性。
实现实时重建——在不依赖未来帧的情况下逐帧处理数据，与大多数现有方法不同。
在未见受试者和运动类型上具有泛化能力，确保在多样化真实场景中的鲁棒性。
在重建长时间缺失标记点序列方面，优于最先进线性方法和基于深度学习的方法。

提出的方法

该方法采用两种不同的神经网络架构：基于LSTM的模型和基于时间窗口的前馈网络，用于建模序列化运动数据。
两种模型均在动作捕捉序列上端到端训练，以学习标记点之间的潜在时空依赖关系。
输入为时间滑动窗口内的3D标记点位置，训练和推理过程中对缺失标记点进行掩码处理。
网络输出缺失标记点的重建3D位置，利用邻近标记点和时间上下文信息。
使用预测值与真实值之间均方误差损失进行模型训练。
该方法专为在线推理设计，逐帧处理输入数据，适用于实时应用。

实验结果

研究问题

RQ1神经网络能否有效学习并利用人体运动中的复杂时空相关性，以重建缺失的标记点？
RQ2基于LSTM的模型在缺失标记点重建中的性能与基于时间窗口的前馈网络相比如何？
RQ3所提方法能否泛化到未见受试者和运动类型，同时保持稳健性能？
RQ4该方法是否优于最先进线性方法和深度学习方法，特别是在长时间缺失数据情况下？
RQ5该模型能否在不依赖未来帧信息的情况下实现实时重建？

主要发现

在重建长时间缺失标记点方面，基于LSTM的模型优于基于时间窗口的模型，尤其在复杂运动中表现更优。
所提方法在重建误差方面优于最先进方法，尤其当100帧（近1秒）内20%的标记点缺失时表现更佳。
在泛化测试中，LSTM模型在未见受试者或运动类型上仍保持合理性能（误差增加<25%），尽管方差有所上升。
当5秒内41个标记点中有15个缺失时，该方法仍保持稳定和准确，而插值法和Burke等人方法则迅速发散。
基于窗口的模型泛化能力良好，性能下降极小，展现出在不同运动类型和受试者间的鲁棒性。
视觉结果表明，基于LSTM的重建结果在视觉上接近真实值，姿态估计的失真极小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。