QUICK REVIEW

[論文レビュー] Exploring Temporal Preservation Networks for Precise Temporal Action Localization

Ke Yang, Peng Qiao|arXiv (Cornell University)|Aug 10, 2017

Human Pose and Action Recognition被引用数 33

ひとこと要約

本稿では、3次元畳み込みネットワーク（3D ConvNet）の推論中に完全な時間的分解能を維持することで、非トリム動画における正確なフレームレベルの行動局所化を可能にするTemporal Preservation Convolutional（TPC）ネットワークを提案する。従来の方法とは異なり、deconvolutional upsampling（例：CDC）を用いないTPCフィルタは、拡大された受容 field を持つストライド付き時間的畳み込みによって時間的情報を保持する。これにより、フレームレベルおよびセグメントレベルの時間的行動局所化の両方で最先端の性能を達成し、最小限の時間的情報損失で実現する。

ABSTRACT

Temporal action localization is an important task of computer vision. Though a variety of methods have been proposed, it still remains an open question how to predict the temporal boundaries of action segments precisely. Most works use segment-level classifiers to select video segments pre-determined by action proposal or dense sliding windows. However, in order to achieve more precise action boundaries, a temporal localization system should make dense predictions at a fine granularity. A newly proposed work exploits Convolutional-Deconvolutional-Convolutional (CDC) filters to upsample the predictions of 3D ConvNets, making it possible to perform per-frame action predictions and achieving promising performance in terms of temporal action localization. However, CDC network loses temporal information partially due to the temporal downsampling operation. In this paper, we propose an elegant and powerful Temporal Preservation Convolutional (TPC) Network that equips 3D ConvNets with TPC filters. TPC network can fully preserve temporal resolution and downsample the spatial resolution simultaneously, enabling frame-level granularity action localization. TPC network can be trained in an end-to-end manner. Experiment results on public datasets show that TPC network achieves significant improvement on per-frame action prediction and competing results on segment-level temporal action localization.

研究の動機と目的

従来の方法がダウンサンプリングによって時間的情報を損なうため、トリムされていない動画における正確な時間的行動局所化の課題に対処すること。
deconvolutionによる時間的情報損失とチェッカーパatters（チェッカーパatters）に苦しむConvolutional-Deconvolutional（CDC）ネットワークの限界を克服すること。
post-hoc upsampling や deconvolution レイヤーに依存せずに、3D ConvNets のエンド・トゥ・エンド学習を可能にすること。
推論中に完全な時間的分解能を維持しながら、事前学習済みモデルの時間的受容 field を保持すること。
最小限の、しかし効果的なアーキテクチャ的変更により、フレームレベルおよびセグメントレベルの両方の行動局所化タスクで優れた性能を達成すること。

提案手法

畳み込みおよびプーリング処理後でも入力の時間的長さを維持するTemporal Preservation Convolutional（TPC）フィルタを導入し、完全な時間的分解能の維持を可能にする。
カーネルサイズを増加させずに、標準的な3次元畳み込みの時間的受容 field を拡大するようにTPCフィルタを設計し、完全な時間的分解能で効果的なコンテキストモデリングを可能にする。
C3Dにおける標準的な3次元畳み込み層をTPCフィルタに置き換えることでTPCネットワークを構築し、フレームレベルの行動分類にエンド・トゥ・エンドで学習可能にする。
TPCのフレームレベル予測を用いてS-CNNが生成する行動セグメントの境界を精緻化し、セグメントレベルの局所化精度を向上させる。
最終全結合層をグローバル平均プーリングに置き換えた変種、TPC-GAPを実装し、パラメータ数を5分の1に削減しながらも競争力のある性能を維持する。
転置畳み込み（transposed convolutions）の必要性を排除することで、deconvolutionベースのアップサンプリングを回避し、チェッカーパattersを排除するとともに、学習を単純化する。

実験結果

リサーチクエスチョン

RQ1時間的受容 field や再訓練の必要性を損なわず、3D ConvNets で完全な時間的分解能を維持できるか？
RQ2標準的な3次元畳み込みをTPCフィルタに置き換えることで、CDCベースの手法に比べてフレームレベルの行動局所化性能が向上するか？
RQ3より正確なフレームレベル予測を用いることで、TPCネットワークは提案されたセグメントをより良く精緻化できるか？
RQ4deconvolution レイヤーが存在しないことで、チェッカーパatters の低減と一般化性能の向上がどの程度達成されるか？
RQ5軽量なTPCの変種（TPC-GAP）は、著しく少ないパラメータ数で競争力のある性能を達成できるか？

主な発見

TPCネットワークは、フレームレベルの行動局所化でTHUMOS’14で47.2%のmAPを達成し、CDCや他のベースラインを顕著に上回った。
IoU閾値0.5の条件下で、セグメントレベルの行動局所化で23.6%のmAPを達成し、優れた一般化能力と精緻化能力を示した。
すべてのIoU閾値（0.3–0.7）において、フレームレベル予測でCDCを上回った。これは、TPCがより高いフレーム単位の局所化精度を有することを示している。
TPCがCDCを上回る性能向上は、提案内の誤検出（false-negative）フレームにおいて特に顕著であり、TPCが曖昧なまたは背景のセグメントをよりよく処理できることを示唆している。
TPC-GAPは、CDCの5分の1のパラメータ数で競争力のある結果を達成し、精度を損なわず高い効率性を示した。
TPCは、転置畳み込みを完全に排除しているため、deconvolutionalネットワークに一般的に見られるチェッカーパattersを回避した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。