QUICK REVIEW

[論文レビュー] Appearance-and-Relation Networks for Video Classification

Limin Wang, Wei Li|arXiv (Cornell University)|Nov 24, 2017

Human Pose and Action Recognition参考文献 46被引用数 44

ひとこと要約

本稿では、2次元畳み込みによる外観と、フレーム間の乗法的相互作用による関係を用いて、空間的外観および時間的関係を明示的にモデル化する、二本のブランチを持つSMARTブロックを備えた新規な動画分類アーキテクチャであるAppearance-and-Relation Networks (ARTNet) を提案する。ARTNetは、RGB入力のみを用いて、Kinetics、UCF101、HMDB51で最先端性能を達成し、同じ学習設定下で3D CNN や二本のストリームネットワークを上回る性能を示した。

ABSTRACT

Spatiotemporal feature learning in videos is a fundamental problem in computer vision. This paper presents a new architecture, termed as Appearance-and-Relation Network (ARTNet), to learn video representation in an end-to-end manner. ARTNets are constructed by stacking multiple generic building blocks, called as SMART, whose goal is to simultaneously model appearance and relation from RGB input in a separate and explicit manner. Specifically, SMART blocks decouple the spatiotemporal learning module into an appearance branch for spatial modeling and a relation branch for temporal modeling. The appearance branch is implemented based on the linear combination of pixels or filter responses in each frame, while the relation branch is designed based on the multiplicative interactions between pixels or filter responses across multiple frames. We perform experiments on three action recognition benchmarks: Kinetics, UCF101, and HMDB51, demonstrating that SMART blocks obtain an evident improvement over 3D convolutions for spatiotemporal feature learning. Under the same training setting, ARTNets achieve superior performance on these three datasets to the existing state-of-the-art methods.

研究の動機と目的

空間的外観と時間的関係を統一的ではあるが分離されたアーキテクチャで明示的にモデル化することで、動画における効果的な時空間表現を学習する課題に取り組むこと。
3D CNN が両方の特徴を暗黙的かつ統合的にモデル化するが、二本のストリームネットワークに比べて性能が劣るという限界を克服すること。
動画分類のための特徴学習を向上させる汎用的でエンド・ツー・エンドで学習可能なビルディング・ブロック（SMART）を設計すること。
標準的なベンチマーク、たとえばKinetics、UCF101、HMDB51において、学習された表現の優れた性能と一般化能力を示すこと。

提案手法

SMARTブロックは、時空間学習を二つの並列ブランチに分離する。外観ブランチは、各フレーム内の空間的構造をモデル化するための2次元畳み込みを用いる。
関係ブランチは、複数のフレーム間の特徴応答の乗法的相互作用を用いて時間的ダイナミクスをモデル化し、スクエアプーリング構造によって実装される。
両ブランチの出力を連結し、1×1畳み込みを用いて縮小することで、コンactな統合表現を生成する。
ARTNetは、複数のSMARTブロックをスタックすることで構築され、マルチスケールの時空間構造の階層的モデリングを可能にする。
アーキテクチャはC3D-ResNet18バックボーンで実装され、TSNのような長期的モデリングフレームワークと組み合わせることで性能向上が可能である。
モデルはRGB入力のみでエンド・ツー・エンドからスクラッチで学習され、光学フローの統合が可能で、さらなる性能向上が得られる。

実験結果

リサーチクエスチョン

RQ13D畳み込みによる暗黙的統合モデル化と比較して、動画分類において外観と時間的関係を明示的にモデル化することで、性能が向上するか？
RQ2空間的および時間的特徴学習を分離する二本のブランチアーキテクチャが、二本のストリームや3D CNNアプローチよりも優れた性能を達成するか？
RQ3ARTNetが学習する表現が、UCF101 や HMDB51 などの下流のアクション認識ベンチマークにどの程度一般化可能か？
RQ4ImageNet+Kineticsで事前学習されたRGB-I3Dと比較して、Kineticsデータセットでのみ事前学習されたARTNetの性能はどの程度か？

主な発見

ARTNetは、RGB入力のみでスクラッチから学習した場合、Kineticsデータセットで94.3%のトップ1精度を達成し、同じ設定下で以前の最先端手法（RGB-I3D）を上回った。
UCF101では94.3%、HMDB51では70.9%の精度を達成し、C3Dに比べてそれぞれ3.7%および5.5%の向上を示した。これは強力な一般化能力を示している。
性能向上の要因は、分離されたが融合されたブランチによる外観と関係の明示的モデリングであり、3D畳み込みよりも時空間構造をより効果的に捉えている。
TSNフレームワーク（スパarsなスニペット集約）と組み合わせることで、ARTNetはさらなる性能向上を示した。これは、長期的時間的モデリングとの互換性があることを示している。
Kineticsでのみ事前学習されたARTNetは、ImageNet+Kineticsで事前学習されたRGB-I3Dと同等の結果を達成した。これは、Kineticsデータセットが動画表現学習に適した質の高いデータであることを示している。
光学フローの追加により、さらに精度が向上したが、計算コストが高くなることが確認された。これは、光学フローが補完的役割を果たすが、高コストであることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。