QUICK REVIEW

[論文レビュー] TAda! Temporally-Adaptive Convolutions for Video Understanding

Ziyuan Huang, Shiwei Zhang|arXiv (Cornell University)|Oct 12, 2021

Human Pose and Action Recognition参考文献 59被引用数 31

ひとこと要約

TAdaConvは2D畳込みに時系列適応キャリブレーション重みを追加し、フレームごとの時系列モデリングを効率的に実現し、事前学習済みモデルと互換性を維持したまま動画分類とローカライゼーションを改善します。ResNet/ConvNeXtなどの既存のバックボーンやTAda2D TAdaConvNeXtに組み込むことができ、複数のデータセットで競争力があるまたは最先端の結果を達成します。

ABSTRACT

Spatial convolutions are widely used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modelling complex temporal dynamics in videos. Specifically, TAdaConv empowers the spatial convolutions with temporal modelling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to previous temporal modelling operations, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, the kernel calibration brings an increased model capacity. We construct TAda2D and TAdaConvNeXt networks by replacing the 2D convolutions in ResNet and ConvNeXt with TAdaConv, which leads to at least on par or better performance compared to state-of-the-art approaches on multiple video action recognition and localization benchmarks. We also demonstrate that as a readily plug-in operation with negligible computation overhead, TAdaConv can effectively improve many existing video models with a convincing margin.

研究の動機と目的

畳み込みの時間的不変性を緩和して、動画の時系列ダイナミクスをより効果的に捉える動機付け。
W_t = alpha_t * W_b のようにフレーム t のカーネルを因子分解し、alpha_t を時系列コンテキストから生成する TAdaConv を導入。
TAdaConv が 2D 畳込みのプラグイン置換として機能し、低オーバーヘッドで既存の動画モデルを改善できることを示す。
アクション分類とローカライゼーションのベンチマークで TAda2D および TAdaConvNeXt の優れた結果を紹介。

提案手法

フレーム t の畳込み重みを W_t = alpha_t * W_b と因子分解し、W_b を共有ベース重み、alpha_t をフレーム固有のキャリブレーションベクターとする。
フレーム記述子を用いて global average pooling による時間的文脈と 1D 畳み込み plus グローバル記述子 g (FC 経由) による局所的な時系列文脈からキャリブレーション重み alpha_t を生成する。線形または非線形の重み生成を含み、オプションでグローバルコンテキストを含める。
初期化時に alpha_t = 1 を設定して標準の畳込みを再現し、事前学習済み重みを活用する。
バックボーンの 2D 畳込みを置換します（ResNet ベースの TAda2D; ConvNeXt ベースの TAdaConvNeXt）し、TAdaConv の後に時系列特徴量統合モジュールを追加して 2D ネットワークを構成します。
有効性と効率性のためにチャネル次元（C_in）に沿ってキャリブレーションを行う；さまざまなキャリブレーション次元を分析する。

実験結果

リサーチクエスチョン

RQ1計算コストを著しく増大さずに、畳み込みカーネルの時刻適応・フレーム単位のキャリブレーションが動画タスクの時系列モデリングを改善できるか？
RQ2パラメータ数、FLOPs、アクション認識およびローカライゼーションのデータセットでの性能という点で、TAdaConv は従来の時系列畳込みおよび他の動的フィルタとどう比較されるか？
RQ3既存のバックボーンに組み込んだ場合、どの初期化、キャリブレーション次元、時系列コンテキスト設定が TAdaConv の利点を最大化するか？
RQ4TAdaConv は事前学習済み重みとの互換性を維持し、アーキテクチャ（ResNet、ConvNeXt）やタスク（分類、ローカライゼーション）間で一貫した利得を提供するか？

主な発見

TAdaConv は既存モデルに組み込んだ場合に性能を向上させ、基準の 2D/3D 畳込みと比べて計算オーバーヘッドはごくわずかである。
TAdaConv は複数の動画アクション認識ベンチマークで最先端手法と同等またはそれ以上の結果を達成。
TAda2D および TAdaConvNeXt のバリアントは Kinetics-400、Something-Something-V2、Epic-Kitchens-100、HACS および Epic-Kitchens-100 のようなアクションローカライゼーションデータセットでも高い結果を示す。
キャリブレーション重みの生成は局所的な時間文脈とグローバルな時間記述子を含めることで有利となり、より大きな時間カーネル（例: (3,3)）がより大きな利得を与える。
入力チャネル次元（C_in）でキャリブレーションする方が、他の次元をキャリブレーションするより性能向上と効率性の向上をもたらす。
複数の段階にまたがって TAdaConv を使用すると改善幅が増し、後半の段階が最終精度により寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。