Skip to main content
QUICK REVIEW

[论文解读] TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Li Ding, Chenliang Xu|arXiv (Cornell University)|May 22, 2017
Human Pose and Action Recognition参考文献 22被引用 54
一句话总结

TricorNet 将时间卷积编码器与双向 LSTM 解码器结合起来,以捕捉局部运动变化和长时序的动作依赖,用于视频动作分割,在三个公开数据集上达到最先进或具有竞争力的结果。

ABSTRACT

Action segmentation as a milestone towards building automatic systems to understand untrimmed videos has received considerable attention in the recent years. It is typically being modeled as a sequence labeling problem but contains intrinsic and sufficient differences than text parsing or speech processing. In this paper, we introduce a novel hybrid temporal convolutional and recurrent network (TricorNet), which has an encoder-decoder architecture: the encoder consists of a hierarchy of temporal convolutional kernels that capture the local motion changes of different actions; the decoder is a hierarchy of recurrent neural networks that are able to learn and memorize long-term action dependencies after the encoding stage. Our model is simple but extremely effective in terms of video sequence labeling. The experimental results on three public action segmentation datasets have shown that the proposed model achieves superior performance over the state of the art.

研究动机与目标

  • 通过在未裁剪的视频中显式建模局部运动变化和长程动作依赖,推动改进的动作分割。
  • 提出一个混合的编码器–解码器架构,包含一个时间卷积编码器和一个 Bi-LSTM 解码器。
  • 评估模型变体,以了解在网络中不同位置捕获长程依赖的影响。

提出的方法

  • 具有 K=2 层的编码器-解码器架构(经验选择)。
  • 编码器:由一维时序卷积的分层结构组成,带最大池化以捕捉局部运动变化。
  • 中间层作为解码器的输入;解码器:包含若干 Bi-LSTM 的分层结构,并进行上采样以产生帧级标签。
  • 最终帧级预测通过对每个时间步的动作类别进行 softmax 获得。
  • 卷积层的激活函数使用 Normalized ReLU;训练采用交叉熵损失、SGD/ADAM 优化和 dropout。

实验结果

研究问题

  • RQ1混合的时序卷积编码器与循环解码器是否能在视频动作分割中更好地同时建模局部运动变化和长程动作依赖?
  • RQ2将 Bi-LSTM 单元置于网络不同深度的变体是否会影响对细粒度与粗粒度动作标签的性能?
  • RQ3相对于多种公开数据集上的最近动作分割模型,TricorNet 的表现如何?

主要发现

  • TricorNet 在这三类数据集上取得最佳或接近最佳的结果。
  • 在 50 Salads(中粒度)上,TricorNet 达到了 67.5% Acc、62.8 Edit,以及 F1 分数 70.1@10、67.2@25 和 56.6@50。
  • 在 Georgia Tech GTEA 上,TricorNet 达到 64.8% Acc,F1 分数为 76.0@10、71.1@25、和 59.2@50。
  • 在 JHU-ISI JIGSAWS 上,TricorNet 实现 82.9% Acc 和 86.8% Edit,在若干基线方法之上,且在若干指标上达到甚至接近最先进水平。
  • 模型变体(高/低)显示出竞争力,基线的 TricorNet 通常提供最强的结果。
  • 定性分析表明 TricorNet 更善于处理长程动作依赖,产生更平滑和更准确的分割结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。