Skip to main content
QUICK REVIEW

[论文解读] A Deep Recurrent Framework for Cleaning Motion Capture Data

Utkarsh Mall, Gend Lal|arXiv (Cornell University)|Dec 9, 2017
Human Motion and Animation参考文献 19被引用 33
一句话总结

该论文提出了一种深度双向LSTM框架,即EBF(编码器-双向滤波器),通过学习基于时间一致性和关节间相关性的关节特定滤波器,自适应地对动作捕捉数据进行去噪。该方法进一步与EBD(编码器-双向解码器)网络结合,用于重建长间隔缺失数据,在无需噪声分布或动作类型先验知识的情况下,实现了在噪声和不完整动作数据上的最先进性能。

ABSTRACT

We present a deep, bidirectional, recurrent framework for cleaning noisy and incomplete motion capture data. It exploits temporal coherence and joint correlations to infer adaptive filters for each joint in each frame. A single model can be trained to denoise a heterogeneous mix of action types, under substantial amounts of noise. A signal that has both noise and gaps is preprocessed with a second bidirectional network that synthesizes missing frames from surrounding context. The approach handles a wide variety of noise types and long gaps, does not rely on knowledge of the noise distribution, and operates in a streaming setting. We validate our approach through extensive evaluations on noise both in joint angles and in joint positions, and show that it improves upon various alternatives.

研究动机与目标

  • 解决在缺乏噪声分布先验知识的情况下,对受多种类型噪声污染和缺失数据影响的动作捕捉数据进行清理的挑战。
  • 开发一种适用于不同动作类型和关节动态的实时流式处理解决方案。
  • 通过建模上下文时间相关性和关节相关性,实现对长时缺失段落的鲁棒填补。
  • 构建一个统一的、可训练的框架,使其在异构动作类型和噪声模式下具备泛化能力。
  • 消除动作数据清理流程中对人工调参或特定动作预处理的依赖。

提出的方法

  • 使用基于双向LSTM的EBF网络,根据时间上下文和关节间相关性,为每一帧预测自适应的、关节特定的低通滤波器。
  • 采用编码器-BiLSTM-滤波器架构,动态建模运动阶段和频率,避免过度或不足平滑。
  • 引入去偏组件以处理非零均值和时变噪声,即使在无显式噪声建模的情况下也能有效应对。
  • 应用第二个EBD网络(ERD的双向变体)利用周围上下文和学习到的关节动力学,合成缺失的动作帧。
  • 使用成对的噪声/干净动作数据,以监督方式联合训练EBF和EBD网络,实现去噪与填补的端到端学习。
  • 以流式方式处理数据,每帧处理延迟极低(<1 ms),支持实时应用。

实验结果

研究问题

  • RQ1单一深度循环模型是否能在无需人工调参的情况下,泛化于多种动作类型和噪声分布?
  • RQ2双向LSTM在动态变化大、噪声水平高的动作数据上,能否有效学习自适应滤波?
  • RQ3深度学习模型在仅依赖周围上下文的情况下,对长达5秒的缺失段落重建能力如何?
  • RQ4EBD用于填补缺失和EBF用于去噪的组合是否优于标准基线方法(如插值+滤波)?
  • RQ5当在异质混合数据上进行训练时,该模型是否能泛化到未见过的动作类型和噪声模式?

主要发现

  • EBF+EBD流水线在所有测试动作的RMS误差上均优于所有基线方法,尤其在长间隔(最高达600帧)下表现显著。
  • EBD网络成功重建了长达5秒的缺失动作序列,而基于插值的方法则完全失效。
  • EBF网络能有效去噪高幅值、非高斯且非零均值的噪声信号,即使每种动作类型的训练数据极少亦可。
  • 该框架处理延迟低于1 ms/帧,实现真正的实时处理,支持动作数据的实时流传输。
  • 当在多样化动作混合数据上进行训练时,该模型能泛化到未见过的动作类型(如“跳跃”或“奔跑”),尽管在领域内样本存在时性能进一步提升。
  • 该方法在新引入的基准数据集上取得了最先进结果,该数据集包含合成噪声和缺失,证明了其在多种噪声和缺失分布下的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。