QUICK REVIEW

[論文レビュー] Collaborative Spatio-temporal Feature Learning for Video Action Recognition

Chao Li, Qiaoyong Zhong|arXiv (Cornell University)|Mar 4, 2019

Human Pose and Action Recognition参考文献 33被引用数 31

ひとこと要約

本論文では、ボリュメトリックな動画データの3つの直交するビュー（H×W、T×H、T×W）にわたる共有2次元畳み込みを適用することで、空間的および時間的特徴を共同で学習する新しいニューラル演算であるCollaborative SpatioTemporal（CoST）を提案する。学習可能な重みによる特徴の融合を通じて、大規模なベンチマークで最先端の性能を達成するとともに、空間的特徴と時間的特徴の寄与度を解釈可能に分析可能である。

ABSTRACT

Spatio-temporal feature learning is of central importance for action recognition in videos. Existing deep neural network models either learn spatial and temporal features independently (C2D) or jointly with unconstrained parameters (C3D). In this paper, we propose a novel neural operation which encodes spatio-temporal features collaboratively by imposing a weight-sharing constraint on the learnable parameters. In particular, we perform 2D convolution along three orthogonal views of volumetric video data,which learns spatial appearance and temporal motion cues respectively. By sharing the convolution kernels of different views, spatial and temporal features are collaboratively learned and thus benefit from each other. The complementary features are subsequently fused by a weighted summation whose coefficients are learned end-to-end. Our approach achieves state-of-the-art performance on large-scale benchmarks and won the 1st place in the Moments in Time Challenge 2018. Moreover, based on the learned coefficients of different views, we are able to quantify the contributions of spatial and temporal features. This analysis sheds light on interpretability of the model and may also guide the future design of algorithm for video recognition.

研究の動機と目的

動画行動認識における効率的かつ効果的な共同空間時間特徴学習の課題に対処すること。
独立的な空間的（C2D）または完全に混合された3次元（C3D）特徴学習の限界を克服し、協調学習メカニズムを導入すること。
モデルパラメータを削減し、訓練効率を向上させつつも、強力な表現能力を維持すること。
学習された融合係数を用いて空間的および時間的特徴の寄与度を定量化することで、解釈可能性を実現すること。
C2DとC3Dの間のギャップを埋め、2次元畳み込みのコンパクト性と3次元特徴学習の表現力の両方を組み合わせること。

提案手法

本手法は3次元動画テンソルの3つの直交する2次元ビュー（H×W（空間）、T×H（高さに沿った時間）、T×W（幅に沿った時間））を構築する。
共有された2次元畳み込みカーネルを各ビューに適用することで、空間的外観と時間的動きの両方の特徴を共同で学習可能となる。
3つのビューからの補完的特徴を、学習可能なチャネルワイドの重み付き和を用いて統合し、係数はエンドツーエンドで訓練される。
アーキテクチャはC2DおよびC3Dのプラグイン置換として設計されており、ResNetのような既存のCNNフレームワークへの統合が可能である。
共有カーネル設計により、モデルパラメータを削減し、過学習を緩和するとともに、特徴の多様性を保持する。
層および行動カテゴリごとの学習された融合係数の平均値を分析することで、解釈可能性が実現される。

実験結果

リサーチクエスチョン

RQ1複数の動画ビューにわたる共有2次元畳み込みを用いて、空間的および時間的特徴を協調的に効果的に学習できるか？
RQ2異なるビュー間での重み共有が、特徴表現を向上させるとともにモデル複雑性を低減できるか？
RQ3ネットワークの深さおよび行動カテゴリに応じて、空間的および時間的特徴の寄与度はどのように変化するか？
RQ4提案手法は大規模な動画行動認識ベンチマークで最先端の性能を達成できるか？
RQ5学習された融合係数は、外観と動きの重要度に関する解釈可能なインサイトをどの程度提供できるか？

主な発見

CoSTは、1st placeを獲得したMoments in Time Challenge 2018を含む大規模なベンチマークで最先端の性能を達成した。
Moments in Timeデータセットでは、空間的特徴（H×Wビュー）が平均で67%の寄与を示したのに対し、時間的特徴（T×HおよびT×Wビュー）はそれぞれ14%および19%の寄与を示した。
Kineticsデータセットでは、空間的特徴が77%の寄与を示し、2つの時間的ビューの寄与はそれぞれ8%および15%であった。
浅い層から深い層へ移行するに従い、空間的特徴の寄与度は低下し、時間的特徴の寄与度は上昇する明確なトレンドが観察された。これは、高レベルの特徴で時間的抽象化が強化されていることを示している。
「噴火する」や「暴風雨の最中」のような行動カテゴリでは、時間的動きの特徴が顕著に判別力が高く、一方「買う」や「インタビューを受ける」のような行動カテゴリでは、外観特徴がより重要であった。
結果から、現在の空間時間特徴モデルは一部の行動において動きの特徴を十分に活用していない可能性があり、今後の設計ではモダリティ寄与度のバランスをより良くする必要があると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。