Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Convolutional Networks for Action Segmentation and Detection

Colin Lea, M. D. Flynn|arXiv (Cornell University)|Nov 16, 2016
Human Pose and Action Recognition参考文献 27被引用数 23
ひとこと要約

本稿では、細分化されたアクションのセグメンテーションと検出のための時空間畳み込みネットワーク(TCNs)を提案する。階層的な時空間畳み込みを用い、プーリング/アップサンプリング(ED-TCN)または拡張畳み込み(Dilated TCN)により長距離依存関係をモデル化する。TCNsはLSTMベースのモデルを上回る精度を達成し、学習が30倍以上高速である。50 Salads、MERL Shopping、Georgia Tech Egocentric Activitiesの3つのデータセットにおいて、最先端の性能を達成した。

ABSTRACT

The ability to identify and temporally segment fine-grained human actions throughout a video is crucial for robotics, surveillance, education, and beyond. Typical approaches decouple this problem by first extracting local spatiotemporal features from video frames and then feeding them into a temporal classifier that captures high-level temporal patterns. We introduce a new class of temporal models, which we call Temporal Convolutional Networks (TCNs), that use a hierarchy of temporal convolutions to perform fine-grained action segmentation or detection. Our Encoder-Decoder TCN uses pooling and upsampling to efficiently capture long-range temporal patterns whereas our Dilated TCN uses dilated convolutions. We show that TCNs are capable of capturing action compositions, segment durations, and long-range dependencies, and are over a magnitude faster to train than competing LSTM-based Recurrent Neural Networks. We apply these models to three challenging fine-grained datasets and show large improvements over the state of the art.

研究の動機と目的

  • 長く複雑な動画において、微細な行動の違いを有する細分化されたアクションのセグメンテーションと検出の課題に取り組む。
  • RNNの学習が遅く、注目範囲が限られる、およびスライディングウィンドウ検出器が長距離の文脈を欠くといった、既存モデルの限界を克服する。
  • セグメントレベルの特性(例:アクションの持続時間、行動間の遷移)と長距離依存関係を効率的に捉えることができる時系列モデリングフレームワークを開発する。
  • セグメンテーションと検出の両タスクにおいて、実世界の性能をよりよく反映する統一された評価指標、セグメンタルF1を提案する。
  • TCNが、双方向LSTMなどの強力なベースラインを上回りながら、著しく高速に学習可能であることを実証する。

提案手法

  • エンコーダ・デコーダTCN(ED-TCN)と呼ばれる、ストライド畳み込みとアップサンプリングを用いた2種類のTCNの変種を提案。階層的な長距離表現を構築する。
  • 拡張畳み込みとスキップ接続を用い、パラメータ数や計算コストを増加させずに受容 field を拡大する、拡張TCNを導入。
  • 各層が増加するカーネルサイズまたは拡張率を用いた時系列畳み込みを適用することで、マルチスケールの時系列パターンを捉える階層的アーキテクチャを採用。
  • 時系列ダイナミクスのモデリング能力と安定性を向上させるために、ゲーテッド活性化関数(例:GPC:tanh(x) ⊙ sigmoid(x))を採用。
  • 学習の安定化と勾配の流れの改善を図るため、Dilated TCNにバッチ正規化と残差スキップ接続を適用。
  • フレームレベルの予測に対して交差エントロピー損失を用いてエンドツーエンドでモデルを学習し、検出出力のための非最大抑制処理を後処理として適用。

実験結果

リサーチクエスチョン

  • RQ1純粋に畳み込みアーキテクチャが、アクションセグメンテーションと検出タスクにおける長距離時系列依存関係を効果的にモデル化できるか?
  • RQ2細分化されたアクションデータセットにおいて、TCNはBi-LSTMのような再帰的モデルと比べて、性能と学習効率の点でどのように差をつけるか?
  • RQ3TCNは、アクションの持続時間や行動間のペアワイズ遷移といったセグメントレベルの特性をどの程度捉えることができるか?
  • RQ4階層的時系列畳み込みを用いることで、RNNベースのモデルと比較して過剰セグメンテーションエラーがどれほど低減されるか?
  • RQ5フィルタ長、拡張率、深さといったアーキテクチャ選択が、TCNの性能とロバストネスにどのように影響するか?

主な発見

  • エンコーダ・デコーダTCN(ED-TCN)は、50 Salads、MERL Shopping、Georgia Tech Egocentric Activitiesの3つのベンチマークデータセットにおいて、他のすべてのモデル、包括して最先端のアプローチを上回った。
  • 50 Salads(ミドルレベル)において、ED-TCNはゲーテッドピクセルCNN(GPC)活性化関数を用いてF1@25スコア58.4を達成し、ReLUや他の非線形関数を上回った。
  • Dilated TCNは受容 field を128フレーム(B=4, L=5)に拡大し、96フレームでも同等の性能を達成した。これは、拡張畳み込みによる効果的な長距離モデリングを示している。
  • ED-TCNは、セグメント境界をよりよく捉えるために長い畳み込みフィルタを用いるため、他のモデルと比較して過剰セグメンテーションエラーを顕著に低減した。
  • ED-TCNの学習時間は、Titan Xで200エポックあたり約1分であり、Bi-LSTMの約30分と比較して30倍の高速化を達成した。これは、並列化可能な畳み込みによるものである。
  • L=2、d=15のED-TCNは最適な性能を達成し、52秒(44フレーム)の受容 field を持つことから、長期的な行動構成を強力にモデル化していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。