QUICK REVIEW

[論文レビュー] TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Li Ding, Chenliang Xu|arXiv (Cornell University)|May 22, 2017

Human Pose and Action Recognition参考文献 22被引用数 54

ひとこと要約

TricorNet は局所的な動作変化と長期的な動作依存性を同時に捉えるために、時系列畳み込みエンコーダと双方向 LSTM デコーダを組み合わせ、ビデオアクションセグメンテーションで3つの公開データセットで最先端または競争力のある結果を達成します。

ABSTRACT

Action segmentation as a milestone towards building automatic systems to understand untrimmed videos has received considerable attention in the recent years. It is typically being modeled as a sequence labeling problem but contains intrinsic and sufficient differences than text parsing or speech processing. In this paper, we introduce a novel hybrid temporal convolutional and recurrent network (TricorNet), which has an encoder-decoder architecture: the encoder consists of a hierarchy of temporal convolutional kernels that capture the local motion changes of different actions; the decoder is a hierarchy of recurrent neural networks that are able to learn and memorize long-term action dependencies after the encoding stage. Our model is simple but extremely effective in terms of video sequence labeling. The experimental results on three public action segmentation datasets have shown that the proposed model achieves superior performance over the state of the art.

研究の動機と目的

未編集動画における局所的な動作変化と長距離の動作依存性を明示的にモデル化することにより、アクションセグメンテーションの改善を動機づける。
時系列畳み込みエンコーダと Bi-LSTM デコーダを備えたハイブリッドなエンコーダ–デコーダアーキテクチャを提案する。
ネットワーク内のどこで長距離の依存関係を捉えるかの影響を理解するため、モデルのバリエーションを評価する。

提案手法

K=2 層のエンコーダ–デコーダアーキテクチャ（経験的に選択）。
エンコーダ: 局所的な動作変化を捉えるための最大プーリングを伴う1D時系列畳み込みの階層。
中間層をデコーダへの入力として機能させる; デコーダ: 拡大アップサンプリングを伴う Bi-LSTM の階層でフレームレベルのラベルを生成。
各時刻ごとにアクションクラスのソフトマックスを用いて最終的なフレームレベル predictions を取得。
畳み込み層の活性化には Normalized ReLU を使用; 学習はクロスエントロピーロス、SGD/ADAM の最適化、ドロップアウトで実施。

実験結果

リサーチクエスチョン

RQ1ハイブリッドな時系列畳み込みエンコーダと再帰デコーダは、ビデオアクションセグメンテーションにおいて局所的な動作変化と長期的なアクション依存性の両方をより良くモデルできるのか？
RQ2Bi-LSTM ユニットをネットワークの異なる深さに配置したバリエーションは、細粒度対して粗粒度のアクションラベルの性能に影響を与えるのか？
RQ3TricorNet は複数の公開データセットにおいて、最近のアクションセグメンテーションモデルと比較してどのように性能を示すのか？

主な発見

TricorNet は3つのデータセットすべてで最高またはほぼ最高の結果を達成した。
50 Salads（中粒度）で、TricorNet は 67.5% Acc、62.8 Edit、F1 スコアは 70.1@10、67.2@25、56.6@50 を達成。
Georgia Tech GTEA で、TricorNet は 64.8% Acc を達成し、F1 スコアは 76.0@10、71.1@25、59.2@50。
JHU-ISI JIGSAWS で、TricorNet は 82.9% Acc および 86.8% Edit を達成し、いくつかのベースラインを上回り、いくつかの指標で最先端と同等の成績を達成。
モデルのバリアント（高層/低層）は競争力のある性能を示し、基礎となる TricorNet が一般に最も強い結果を出す。
定性的分析は、TricorNet が長距離のアクション依存関係をより上手く処理し、より滑らかで正確なセグメンテーションを生み出すことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。