Skip to main content
QUICK REVIEW

[论文解读] Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment

Li Ding, Chenliang Xu|arXiv (Cornell University)|Mar 28, 2018
Human Pose and Action Recognition参考文献 21被引用 60
一句话总结

引入 Temporal Convolutional Feature Pyramid Network (TCFPN) 与 Iterative Soft Boundary Assignment (ISBA),用于高效的弱监督动作分割与对齐,在 Breakfast 与 Hollywood Extended 数据集上取得了优异结果。

ABSTRACT

In this work, we address the task of weakly-supervised human action segmentation in long, untrimmed videos. Recent methods have relied on expensive learning models, such as Recurrent Neural Networks (RNN) and Hidden Markov Models (HMM). However, these methods suffer from expensive computational cost, thus are unable to be deployed in large scale. To overcome the limitations, the keys to our design are efficiency and scalability. We propose a novel action modeling framework, which consists of a new temporal convolutional network, named Temporal Convolutional Feature Pyramid Network (TCFPN), for predicting frame-wise action labels, and a novel training strategy for weakly-supervised sequence modeling, named Iterative Soft Boundary Assignment (ISBA), to align action sequences and update the network in an iterative fashion. The proposed framework is evaluated on two benchmark datasets, Breakfast and Hollywood Extended, with four different evaluation metrics. Extensive experimental results show that our methods achieve competitive or superior performance to state-of-the-art methods.

研究动机与目标

  • 解决在长视频中实现可扩展的弱监督动作分割的需求。
  • 开发适用于迭代训练的快速、非递归的动作模型。
  • 提出一种软边界机制,以提升对来自转录文本的监督。
  • 在训练过程中迭代地改进动作转录文本,使其与网络预测对齐。

提出的方法

  • 提出 Temporal Convolutional Feature Pyramid Network (TCFPN) 作为一个带横向连接的编码器-解码器时序模型,用以融合粗细特征。
  • 引入 Iterative Soft Boundary Assignment (ISBA),通过线性概率插值使用软边界从动作转录文本生成训练目标。
  • 采用类似 EM 的迭代循环,其中 ISBA 根据网络推断来改进转录文本并重新训练模型。
  • 实现基于视频级识别损失的停止准则,在 ISBA 迭代过程中防止过拟合。
  • 在 Breakfast 和 Hollywood Extended 上使用四个指标进行训练与评估(逐帧准确率、排除背景的准确率、IoU、IoD)。

实验结果

研究问题

  • RQ1非递归的卷积时序模型能否与基于 RNN/HMM 的弱监督动作分割方法竞争?
  • RQ2软边界监督相比硬性线性映射,是否能提升从动作转录文本的学习?
  • RQ3将迭代转录文本改进与停止准则结合,是否能带来稳健的弱监督对齐与分割?
  • RQ4在 Breakfast 和 Hollywood Extended 的多个指标上,所提 ISBA 框架与最先进方法相比如何?

主要发现

  • TCFPN 在所评估的数据集上超越了先前的全监督基线,且指标具有竞争力。
  • 结合 ISBA 的训练(TCFPN+ISBA)在 Breakfast 与 Hollywood Extended 上实现了优于其他的弱监督动作分割与对齐的结果。
  • 软边界分配在多项评估指标上优于硬转录映射,并且加速收敛。
  • 提出的基于视频级识别损失的停止准则能够在过拟合前有效停止训练,并选择最佳迭代。
  • 该框架通过避免递归和马尔可夫模型,强调了效率和可扩展性,使训练更快。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。