Skip to main content
QUICK REVIEW

[论文解读] Dilated Temporal Fully-Convolutional Network for Semantic Segmentation of Motion Capture Data

Noshaba Cheema, S. Maryam Hosseini|arXiv (Cornell University)|Jan 1, 2018
Video Analysis and Summarization参考文献 9被引用 5
一句话总结

本文提出一种空洞时间全卷积网络(DTFCN),用于运动捕捉数据的自动语义分割,将3D运动序列转换为RGB运动图像,并应用堆叠的一维空洞卷积以实现指数级感受野扩展。该模型在测试中达到91.64%的准确率,对80%噪声标签具有鲁棒性,在动作分割任务中优于当前最先进模型。

ABSTRACT

Semantic segmentation of motion capture sequences plays a key part in many data-driven motion synthesis frameworks. It is a preprocessing step in which long recordings of motion capture sequences are partitioned into smaller segments. Afterwards, additional methods like statistical modeling can be applied to each group of structurally-similar segments to learn an abstract motion manifold. The segmentation task however often remains a manual task, which increases the effort and cost of generating large-scale motion databases. We therefore propose an automatic framework for semantic segmentation of motion capture data using a dilated temporal fully-convolutional network. Our model outperforms a state-of-the-art model in action segmentation, as well as three networks for sequence modeling. We further show our model is robust against high noisy training labels.

研究动机与目标

  • 自动化长时运动捕捉序列的语义分割,以替代当前耗时的人工处理流程。
  • 通过利用时间卷积网络(TCNs),解决RNN在序列建模中的梯度消失与并行化能力差等局限。
  • 通过空洞卷积捕捉长程时间依赖关系,提升运动捕捉数据中的动作分割准确率。
  • 增强对人工标注标签噪声的鲁棒性,以应对运动数据库构建中常见的标签错误问题。
  • 开发一种可扩展且高效的深度学习框架,用于大规模运动数据库的构建。

提出的方法

  • 将3D运动捕捉数据转换为RGB图像表示,其中每一列对应一个时间帧,关节点位置以RGB值编码。
  • 应用感受野高度与关节数量相匹配的2D卷积层,仅沿时间维度进行操作。
  • 堆叠四层一维时间因果空洞卷积层,采用指数增长的膨胀率(d = w^(l−1)),在不降低分辨率的前提下扩展感受野。
  • 在最终Softmax层之前使用归一化ReLU激活函数,以提升分类准确率。
  • 采用全连接层配合Softmax实现像素级动作分类,并通过上采样使输出序列长度与输入一致。
  • 使用Adam优化器训练模型,共100个周期,并在包含70个运动序列与10个动作类别的数据集上进行7折交叉验证。

实验结果

研究问题

  • RQ1空洞时间全卷积网络能否有效学习运动捕捉序列中的长程时间依赖关系,以实现语义分割?
  • RQ2在运动动作分割任务中,所提出的DTFCN相较于ED-TCN、WaveNet、TDNN与LSTM等最先进模型的性能表现如何?
  • RQ3该模型在面对噪声或错误标注的训练数据时,其鲁棒性如何?这是运动数据库标注中常见的问题。
  • RQ4准确分割的最优感受野尺寸是多少?模型复杂度随感受野扩展如何变化?

主要发现

  • 所提出的DTFCN在相同运动捕捉数据集上达到91.64%的测试准确率,优于ED-TCN(88.47%)、WaveNet(88.69%)、TDNN(85.54%)与LSTM(81.95%)。
  • 当使用核宽w = 3时,342帧的感受野尺寸可实现与3125帧大感受野相当的性能,但参数量减少43.8万。
  • 即使在80%噪声标签的训练数据上,模型仍保持超过88%的测试准确率,展现出对标签噪声的强鲁棒性。
  • 在Softmax层前使用归一化ReLU激活函数,相比标准ReLU,可进一步提升分类准确率。
  • 模型在不同感受野尺寸下性能保持稳定,表明中等大小的感受野已足以实现准确分割。
  • 该架构能有效区分细微动作类型,如“开始左步”与“左步”,这些动作需要同时依赖过去与未来上下文信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。