QUICK REVIEW

[論文レビュー] TEINet: Towards an Efficient Architecture for Video Recognition

Zhaoyang Liu, Donghao Luo|arXiv (Cornell University)|Nov 21, 2019

Human Pose and Action Recognition参考文献 31被引用数 28

ひとこと要約

TEINetは、時間的強化と相互作用（TEI）モジュールを導入することで、効率的な動画認識アーキテクチャを提案する。このモジュールは、時間的モデリングを動きに敏感な特徴強化とチャネル別時間的相互作用に分離する。2D ResNetsにこのモジュールを統合することで、3D CNN よりも顕著に少ない FLOPs で、Something-Something V1/V2 で最先端の精度を達成し、Kinetics-400 でも競争力のある結果を得た。

ABSTRACT

Efficiency is an important issue in designing video architectures for action recognition. 3D CNNs have witnessed remarkable progress in action recognition from videos. However, compared with their 2D counterparts, 3D convolutions often introduce a large amount of parameters and cause high computational cost. To relieve this problem, we propose an efficient temporal module, termed as Temporal Enhancement-and-Interaction (TEI Module), which could be plugged into the existing 2D CNNs (denoted by TEINet). The TEI module presents a different paradigm to learn temporal features by decoupling the modeling of channel correlation and temporal interaction. First, it contains a Motion Enhanced Module (MEM) which is to enhance the motion-related features while suppress irrelevant information (e.g., background). Then, it introduces a Temporal Interaction Module (TIM) which supplements the temporal contextual information in a channel-wise manner. This two-stage modeling scheme is not only able to capture temporal structure flexibly and effectively, but also efficient for model inference. We conduct extensive experiments to verify the effectiveness of TEINet on several benchmarks (e.g., Something-Something V1&V2, Kinetics, UCF101 and HMDB51). Our proposed TEINet can achieve a good recognition accuracy on these datasets but still preserve a high efficiency.

研究の動機と目的

3D CNN の動画アクション認識における高い計算コストを低減しつつ、強力な性能を維持すること。
動き関連特徴を強化し、時間的文脈を効率的にモデリングするプラグイン型時間的モジュールを開発すること。
2D CNN が3D畳み込みに置き換えることなく、空間時間的表現を効果的に学習できるようにすること。
動きに敏感なデータセット（例：Something-Something V1/V2）で、最小限の計算オーバーヘッドで最先端の性能を達成すること。
RGB 入力と ImageNet プレトレーニングのみを用いて、Kinetics、UCF101、HMDB51 といった複数のデータセットに一般化できることを示すこと。

提案手法

TEI モジュールは、2つの逐次的コンponent から構成される：動き強化モジュール（MEM）と時間的相互作用モジュール（TIM）。
MEM は、動きの代理として時間差を利用し、チャネル別アテンションを適用することで、背景を抑制し、動き関連特徴を強化する。
TIM は、小さな時間ウィンドウ内で局所的でチャネル別1次元畳み込みを適用し、短距離の時間的依存性をモデリングする。
TEI ブロックは、2D ResNets の残差ブロックに挿入され、アーキテクチャの大規模な見直しを伴わずにプラグアンドプレイで統合可能である。
この手法は、空間モデリングに2D畳み込みを主に使用し、TEI ブロックによる軽量な3Dに類似した時間的モデリングを導入する。
完全な3D畳み込みを避けることで、推論効率を維持し、軽量なチャネル別操作を用いる。

実験結果

リサーチクエスチョン

RQ1計算コストを増加させることなく、軽量でプラグイン可能なモジュールが2D CNN の動画アクション認識性能を向上させられるか？
RQ2動き強化と時間的相互作用を分離することで、エンドツーエンドの3D畳み込みよりも優れた性能と効率が得られるか？
RQ3TEI ブロックを備えた2D CNN が、Something-Something V1/V2 のような動きに敏感なデータセットで最先端の性能を達成できるか？
RQ4Kinetics-400 において、TEINet は2D-TSN/TSM および3D-I3D モデルと比較して、精度と効率の両面で優れているか？
RQ5Kinetics プレトレーニングから微調整した場合、TEINet はUCF101 や HMDB51 のような小さなデータセットに対しても一般化性能を示せるか？

主な発見

TEINet は、16フレーム入力での Something-Something V2 でトップ-1精度61.3%を達成し、TSM-16f×10 よりも1.9%高い。
TEINet 8f モデルは、Something-Something V1 で TSM-16f×10 や TSM-En を上回り、10クロップでトップ-1精度75.8%を達成した。
Kinetics-400 では、16フレーム入力の TEINet が、32フレーム入力の NL I3D よりも1.3%高い精度を達成したが、FLOPs は少なく抑えられた。
UCF101 および HMDB51 でも競争力ある性能を示し、Kinetics プレトレーニングから微調整した場合、I3D-RGB や R(2+1)D-RGB を上回った。
単一の P100 GPU でも低遅延かつ高スループットを維持し、推論速度に問題がなく、効率性が確認された。
アブレーションスタディにより、MEM と TIM の両方が性能向上に顕著に寄与しており、分離設計の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。