QUICK REVIEW

[論文レビュー] ConvNet Architecture Search for Spatiotemporal Feature Learning

Du Tran, Jamie Ray|arXiv (Cornell University)|Aug 16, 2017

Multimodal Machine Learning Applications参考文献 1被引用数 349

ひとこと要約

この論文は、ビデオの時空間特徴のための実証的ConvNetアーキテクチャ探索を行い、C3Dを上回る深い3D残差ConvNet（Res3D）を得て、複数のベンチマークでより高速かつコンパクト。

ABSTRACT

Learning image representations with ConvNets by pre-training on ImageNet has proven useful across many visual understanding tasks including object detection, semantic segmentation, and image captioning. Although any image representation can be applied to video frames, a dedicated spatiotemporal representation is still vital in order to incorporate motion patterns that cannot be captured by appearance based models alone. This paper presents an empirical ConvNet architecture search for spatiotemporal feature learning, culminating in a deep 3-dimensional (3D) Residual ConvNet. Our proposed architecture outperforms C3D by a good margin on Sports-1M, UCF101, HMDB51, THUMOS14, and ASLAN while being 2 times faster at inference time, 2 times smaller in model size, and having a more compact representation.

研究の動機と目的

映像分類のための時空間特徴学習に影響を与えるアーキテクチャの選択を調べる。
ビデオデータに特化した深い3D残差アーキテクチャを開発する。
性能向上をサイズではなくアーキテクチャに帰因させるためにモデル容量を制約する。
学習表現の他のビデオタスクへの転移可能性を実証する。

提案手法

ResNet風の設計空間内でUCF101を対象に制御されたアーキテクチャ探索を行う。
Res3Dアーキテクチャ（3D-ResNet-18）を提案し、スポーツ-1Mで大規模な時空間学習のために訓練する。
固定パラメータ予算の下で、入力サンプリングレート、入力解像度、畳み込みタイプ（3D対2D/2.5D）を体系的に評価する。
C3Dおよび2Dベースラインと比較して精度、速度、モデルサイズの向上を評価する。

実験結果

リサーチクエスチョン

RQ1ビデオ分類の時空間特徴学習を最も改善するアーキテクチャの変更は何か？
RQ2ビデオ表現には3D畳み込みアプローチが2Dや混合畳み込みより優れているか？
RQ3サンプリングレート、入力解像度、ネットワーク深度は容量制約下でどのように性能に影響するか？
RQ4学習したRes3D表現は大規模ビデオベンチマークや異なるタスクへ転用可能か？

主な発見

Dataset	C3D acc (%)	Res3D acc (%)	Δ acc (%)
Sports-1M	61.1	65.6	4.5
UCF101	82.3	85.8	3.5
HMDB51	51.6	54.9	3.3
THUMOS14	19.0	22.5	3.5
ASLAN	78.3	78.8	0.5

Res3Dは複数のベンチマーク（Sports-1M、UCF101、HMDB51、THUMOS14、ASLAN）でC3Dを上回る。
Sports-1MではRes3Dは非長期モデリング手法の中で最先端の結果を達成し、C3Dより2倍速く、モデルサイズも2分の1。
Res3DはRGBのみの性能でC3DよりUCF101およびHMDB51でより高い性能を示す（例：表9で相対ゲイン3.5%および3.3%）。
全層で3D畳み込みは混合3D-2Dや2.5Dより性能が良く、Res3Dの3D設計は明確な利点を示す。
ネットワーク深さはおよそ18-26層で、ビデオ分類の精度-速度-メモリのトレードオフが有利。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。