Skip to main content
QUICK REVIEW

[論文レビュー] Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment

Li Ding, Chenliang Xu|arXiv (Cornell University)|Mar 28, 2018
Human Pose and Action Recognition参考文献 21被引用数 60
ひとこと要約

効率的な弱教師ありアクションセグメンテーションとアライメントのために Temporal Convolutional Feature Pyramid Network (TCFPN) と Iterative Soft Boundary Assignment (ISBA) を導入し、Breakfast および Hollywood Extended で優れた結果を達成。

ABSTRACT

In this work, we address the task of weakly-supervised human action segmentation in long, untrimmed videos. Recent methods have relied on expensive learning models, such as Recurrent Neural Networks (RNN) and Hidden Markov Models (HMM). However, these methods suffer from expensive computational cost, thus are unable to be deployed in large scale. To overcome the limitations, the keys to our design are efficiency and scalability. We propose a novel action modeling framework, which consists of a new temporal convolutional network, named Temporal Convolutional Feature Pyramid Network (TCFPN), for predicting frame-wise action labels, and a novel training strategy for weakly-supervised sequence modeling, named Iterative Soft Boundary Assignment (ISBA), to align action sequences and update the network in an iterative fashion. The proposed framework is evaluated on two benchmark datasets, Breakfast and Hollywood Extended, with four different evaluation metrics. Extensive experimental results show that our methods achieve competitive or superior performance to state-of-the-art methods.

研究の動機と目的

  • 長時間映像におけるスケーラブルな弱教師ありアクションセグメンテーションのニーズに対処する。
  • 反復訓練に適した高速で非リカレントなアクションモデルを開発する。
  • 転写データからの監督を改善するソフト境界機構を提案する。
  • 訓練中にアクション転写を反復的に精査してネットワーク予測と整合させる。

提案手法

  • Temporal Convolutional Feature Pyramid Network (TCFPN) を、粗い特徴と細かい特徴を融合する横方向接続を備えたエンコーダ-デコーダの時系列モデルとして提案する。
  • 線形確率補間によるソフト境界を用いてアクション転写から学習ターゲットを生成する Iterative Soft Boundary Assignment (ISBA) を導入する。
  • ISBA がネットワーク推論に基づいて転写を精錬し、モデルを再訓練する EM 相当の反復ループを使用する。
  • ISBAの反復中に過剰適合を防ぐために動画レベルの認識損失に基づく停止条件を実装する。
  • Breakfast および Hollywood Extended で4つの指標(フレーム単位の正確さ、背景を除く正確さ、IoU、IoD)を用いて訓練・評価する。

実験結果

リサーチクエスチョン

  • RQ1非リカレントの畳み込み系時系列モデルは、RNN/HMM ベースのアプローチと弱教師ありアクションセグメンテーションで競合できるか?
  • RQ2ソフト境界による監督は、硬い線形マッピングと比べてアクション転写からの学習を改善するか?
  • RQ3停止条件と組み合わせた反復的転写精錬は、堅牢な弱教師付きアライメントとセグメンテーションを生み出せるか?
  • RQ4提案する ISBA フレームワークは、Breakfast および Hollywood Extended における複数の指標で最先端手法とどう比較されるか?

主な発見

  • TCFPN は、評価データセットで従来の全監視付きベースラインを上回り、競合する指標を達成。
  • ISBA 強化訓練(TCFPN+ISBA)は、Breakfast および Hollywood Extended における弱教師ありアクションセグメンテーションとアライメントで優れた結果を達成。
  • ソフト境界割り当ては、硬い転写マッピングよりもいくつかの評価指標を改善し、収束を速める。
  • 動画レベルの認識損失を用いる提案停止条件は、過剰適合を回避して最適な反復を選択するのに効果的。
  • 再帰とマルコフモデルを避けることで効率とスケーラビリティを重視し、訓練を高速化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。