QUICK REVIEW

[論文レビュー] A Closer Look at Spatiotemporal Convolutions for Action Recognition

Du Tran, Heng Wang|arXiv (Cornell University)|Nov 30, 2017

Human Pose and Action Recognition参考文献 26被引用数 215

ひとこと要約

本論文はさまざまな時空間畳み込みを用いてアクション認識を実証的に分析し、R(2+1)Dブロックを導入してSports-1M、Kinetics、UCF101、HMDB51で最先端の結果を達成することを示します。3D畳み込みを空間成分と時間成分に因数分解することで精度と最適化が向上し、混合および(2+1)D変種がトレードオフを提供します。

ABSTRACT

In this paper we discuss several forms of spatiotemporal convolutions for video analysis and study their effects on action recognition. Our motivation stems from the observation that 2D CNNs applied to individual frames of the video have remained solid performers in action recognition. In this work we empirically demonstrate the accuracy advantages of 3D CNNs over 2D CNNs within the framework of residual learning. Furthermore, we show that factorizing the 3D convolutional filters into separate spatial and temporal components yields significantly advantages in accuracy. Our empirical study leads to the design of a new spatiotemporal convolutional block "R(2+1)D" which gives rise to CNNs that achieve results comparable or superior to the state-of-the-art on Sports-1M, Kinetics, UCF101 and HMDB51.

研究の動機と目的

異なる時空間畳み込み（2D、3D、混合、および（2+1）D）がアクション認識性能に与える影響を評価する。
3D畳み込みを空間と時間のステップに因数分解することで最適化と精度の利点を評価する。
ResNetアーキテクチャ内でR(2+1)Dブロックを大規模データセットで導入・検証する。
Sports-1M、Kinetics、UCF101、HMDB51で最新手法と比較する。
実務上のクリップ長、トレーニング戦略、ビデオレベルの予測に関する洞察を提供する。

提案手法

クリップ上のR2D（2D） / フレーム上のf-R2D / 3DのR3D / 混合3D-2DのMCx/rMCx / ResNets内のR(2+1)D（（2+1）D）など、複数の畳み込み変種を系統的に評価する。
各3DフィルターNi×t×d×dを、Ni×1×d×dの2D空間フィルターとMi×t×1×1の1D時間フィルターに置換し、チャネルで3Dとパラメータを一致させる（(2+1)Dブロック）を提案する。
トレーニングとテストの誤差比較を通じて最適化と非線形容量を分析し、(2+1)Dが全3Dよりも最適化が容易で非線形容量が大きいことを示す。
大規模ベンチマーク（Sports-1M、Kinetics）で評価し、クリップレベルおよびビデオレベルの指標でUCF101/HMDB51へ転移させる。
事前学習／ファインチューニング戦略とクリップ長の実験を通じて、ビデオレベルの精度とクリップレベルの精度を比較する。

実験結果

リサーチクエスチョン

RQ1畳み込みネットワークにおける時系列モデリングは、フレームごとのまたは2Dのみのモデルよりアクション認識を改善するか。
RQ23D畳み込みを空間と時間の成分に因数分解することで精度と最適化を改善できるか。
RQ3混合および（2+1）Dアーキテクチャは大規模なアクション認識データセットで全3D CNNと比較してどうか。
RQ4クリップ長とクリップ数はビデオレベル予測性能にどのような影響を与えるか。

主な発見

Net	# パラメータ	Clip@1 (8 フレーム)	Video@1 (8 フレーム)	Clip@1 (16 フレーム)	Video@1 (16 フレーム)
R2D	11.4M	46.7	59.5	47.0	58.9
f-R2D	11.4M	48.1	59.4	50.3	60.5
R3D	33.4M	49.4	61.8	52.5	64.2
MC2	11.4M	50.2	62.5	53.1	64.2
MC3	11.7M	50.7	62.9	53.7	64.7
MC4	12.7M	50.5	62.5	53.7	65.1
MC5	16.9M	50.3	62.5	53.7	65.1
rMC2	33.3M	49.8	62.1	53.1	64.9
rMC3	33.0M	49.8	62.3	53.2	65.0
rMC4	32.0M	49.9	62.3	53.4	65.1
rMC5	27.9M	49.4	61.2	52.1	63.1
R(2+1)D	33.3M	52.8	64.8	56.8	68.0

R(2+1)DはKineticsで8フレームおよび16フレームの入力で一貫して最高精度を達成（Clip@1: 52.8–56.8; Video@1: 64.8–68.0）。
（2+1）Dの因数分解は、特にネットワークの深さが増すにつれて、全3D畳み込みよりも高い精度とより容易な最適化をもたらす。
Sports-1MではRGB 32フレームのR(2+1)Dが57.0%のclip@1と73.0%のvideo@1を達成し、C3DおよびP3Dのベースラインを上回る。ビデオレベルの精度は73.3%に達し、報告された中で最高。
KineticsでRGBからスクラッチで訓練した場合、R(2+1)DはI3Dや他のベースラインを上回り、Sports-1Mでの事前学習が転移利得をもたらす。
長い入力クリップはクリップレベルの精度を向上させるが、ビデオレベルの利得は飽和する。複数クリップの予測を平均化することで最良のビデオ性能を得られる。
R(2+1)Dは深いネットワークで特にR3Dと比較して訓練とテストの損失ダイナミクスが有利であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。