QUICK REVIEW

[論文レビュー] Initialization Strategies of Spatio-Temporal Convolutional Neural Networks

Elman Mansimov, Nitish Srivastava|arXiv (Cornell University)|Mar 25, 2015

Human Pose and Action Recognition参考文献 18被引用数 27

ひとこと要約

本稿では、事前学習済み2次元ImageNet重みを用いて3次元畳み込み層の初期化戦略を新たに提案し、学習を再開することなく時間的表現の効率的学習を可能にする。最も優れた手法であるネガティブ重み初期化（NWI）はUCF-101で73.9％の正確度を達成し、標準的な空間畳み込みネットワークを上回り、光流に基づくストリームと融合することで準最先端の性能（85.3％）を達成した。

ABSTRACT

We propose a new way of incorporating temporal information present in videos into Spatial Convolutional Neural Networks (ConvNets) trained on images, that avoids training Spatio-Temporal ConvNets from scratch. We describe several initializations of weights in 3D Convolutional Layers of Spatio-Temporal ConvNet using 2D Convolutional Weights learned from ImageNet. We show that it is important to initialize 3D Convolutional Weights judiciously in order to learn temporal representations of videos. We evaluate our methods on the UCF-101 dataset and demonstrate improvement over Spatial ConvNets.

研究の動機と目的

UCF-101のような小さな動画データセット上でSpatio-Temporal ConvNetを訓練する課題に対処する。学習を再開すると過学習と高い計算コストが生じる。
再学習を伴わずに、ImageNetで学習された2次元畳み込みネットワークから得た空間特徴を3次元畳み込みネットワークに効果的に転送する。
異なる3次元畳み込み重み初期化法が、動画シーケンスからの意味のある時間的表現学習能力に与える影響を調査する。
適切な重み初期化とComposite LSTMモデルとの統合により、UCF-101における分類正確度を向上させる。

提案手法

事前学習済み2次元畳み込み重みから派生する4つの3次元畳み込みカーネル初期化戦略を提案：平均化（IA）、スケーリング（IS）、ゼロ重み初期化（ZWI）、ネガティブ重み初期化（NWI）。
初期化時に∑ₜ W³ᴰₜ = W²ᴰ を満たすことで、元の2次元層の出力範囲を維持する。
3次元カーネルのすべての時間的サブ行列の和が元の2次元重み行列に等しくなるという制約を設け、活性化の安定性を保つ。
ラベル付きUCF-101およびラベルなしSports-1Mデータを用いて学習されたComposite LSTMネットワークを、時間的シーケンス表現を学習するために用いる。
NWI初期化されたSpatio-Temporal ConvNetのソフトマックス確率と、Composite LSTMモデルの確率を平均化して統合し、性能を向上させる。
2ストリームモデルへの応用として、RGBベースのNWI + Composite LSTMと光流ベースのモデルを統合し、最先端の性能を達成した。

実験結果

リサーチクエスチョン

RQ13次元畳み込み重み初期化戦略の選択が、Spatio-Temporal ConvNetにおける時間的表現学習にどのように影響するか？
RQ2事前学習済み2次元ImageNet重みを3次元畳み込みネットワークに効果的に転送することで、小さなデータセットにおける動画行動認識の正確度を向上させられるか？
RQ3一様または負の値を用いた初期化が、対称的または平均化ベースの手法と比較して、時間的特徴学習を向上させるか？
RQ42次元重みから初期化された3次元畳み込みネットワークに、時間モデリング部（例：Composite LSTM）を組み合わせることで、大規模な動画データセットで学習されたモデルと同等またはそれ以上の性能を達成できるか？

主な発見

ネガティブ重み初期化（NWI）はUCF-101で73.9％の正確度を達成し、ベースラインの空間畳み込みネットワーク（71.8％）や他の初期化手法を顕著に上回った。
ZWI初期化法（1つのサブ行列以外をすべてゼロに設定）は73.3％の正確度を示し、非対称な初期化が時間的ダイナミクスの学習を支援することを示唆した。
IAおよびIS手法（時間方向に一様または比例的に重みを分散）はそれぞれ72.0％および72.4％の正確度にとどまり、対称的初期化が時間的表現学習を制限することが示された。
NWI初期化されたRGBモデルと光流ベースの2ストリームモデルを統合した結果、UCF-101で85.3％の正確度を達成し、個々のモデルを上回り、最先端性能に近い水準に到達した。
2ストリーム統合モデルは、追加のアーキテクチャ的トリックを用いず、追加のデータオーグメンテーションも行わずに、最も優れた既存手法（ConvNet Features + iDT：89.7％）と同等の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。