QUICK REVIEW

[論文レビュー] Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs?

Hirokatsu Kataoka, Tenga Wakamiya|arXiv (Cornell University)|Apr 10, 2020

Human Pose and Action Recognition参考文献 31被引用数 82

ひとこと要約

この論文は、メガスケールで注意深く注釈されたビデオデータセット（事前学習）とデータセット統合が時空3D CNNの転移学習性能にどう影響するかを調べ、標準ベンチマークでの利得と非常に深いモデルの深さ制限を示す。

ABSTRACT

How can we collect and use a video dataset to further improve spatiotemporal 3D Convolutional Neural Networks (3D CNNs)? In order to positively answer this open question in video recognition, we have conducted an exploration study using a couple of large-scale video datasets and 3D CNNs. In the early era of deep neural networks, 2D CNNs have been better than 3D CNNs in the context of video recognition. Recent studies revealed that 3D CNNs can outperform 2D CNNs trained on a large-scale video dataset. However, we heavily rely on architecture exploration instead of dataset consideration. Therefore, in the present paper, we conduct exploration study in order to improve spatiotemporal 3D CNNs as follows: (i) Recently proposed large-scale video datasets help improve spatiotemporal 3D CNNs in terms of video classification accuracy. We reveal that a carefully annotated dataset (e.g., Kinetics-700) effectively pre-trains a video representation for a video classification task. (ii) We confirm the relationships between #category/#instance and video classification accuracy. The results show that #category should initially be fixed, and then #instance is increased on a video dataset in case of dataset construction. (iii) In order to practically extend a video dataset, we simply concatenate publicly available datasets, such as Kinetics-700 and Moments in Time (MiT) datasets. Compared with Kinetics-700 pre-training, we further enhance spatiotemporal 3D CNNs with the merged dataset, e.g., +0.9, +3.4, and +1.1 on UCF-101, HMDB-51, and ActivityNet datasets, respectively, in terms of fine-tuning. (iv) In terms of recognition architecture, the Kinetics-700 and merged dataset pre-trained models increase the recognition performance to 200 layers with the Residual Network (ResNet), while the Kinetics-400 pre-trained model cannot successfully optimize the 200-layer architecture.

研究の動機と目的

標準的なビデオベンチマークへのファインチューニングで最もよく転移する大規模事前学習データセットを評価する。
事前学習におけるカテゴリ数とインスタンス数が性能にどう影響するかを調べる。
事前学習データを増やす目的で簡易なデータセット統合を試し、その影響を評価する。
異なる事前学習条件下で3D CNNのモデル深さ（層数）を増やす効果を探る。
メガスケールな事前学習の下で3D-ResNetと(2+1)Dアーキテクチャを比較する。

提案手法

3D-ResNet派生モデルをKinetics-700、MiT、STAIR、およびMini-HVUデータセットで事前学習させる。
UCF-101、HMDB-51、およびActivityNetでファインチューニングして転移性能を測定する。
カテゴリ数とインスタンス数を体系的に変化させ、データ量が精度に与える影響を研究する。
merged pre-trainingデータセット（例：K+M、K+M+S）を作成し、単一データセットの事前学習と比較する。
モデルの深さ（ResNet-18からResNet-200）を評価し、3D-ResNetと(2+1)Dバリアントを比較する。
光学フロー入力ストリームの有無で結果を比較する（本研究は単一ストリーム入力の3D CNNに焦点を当てていることに注意）。

実験結果

リサーチクエスチョン

RQ13D CNNにとって、どの事前学習データセットが標準的なビデオ認識ベンチマークへ最も良く転移するのか？
RQ2事前学習におけるカテゴリ数とインスタンス数は転移精度にどう影響するのか？
RQ3単純に公開ビデオデータセットを統合してより大きな事前学習セットを作成することはファインチューニング性能を改善するのか？
RQ4異なる事前学習条件下でモデルの深さを増やすと転移性能はどう変化するのか？

主な発見

Kinetics-700による事前学習は、単一データセットの事前学習オプションの中で、UCF-101、HMDB-51、およびActivityNetの転移性能（トップ-1動画レベル精度）で最も良い。
Kinetics-700とMiTを統合したK+Mは、ファインチューニング結果をさらに改善し、例としてKinetics-700基準よりも+0.9（UCF-101）、+3.4（HMDB-51）、+1.1（ActivityNet）の利得が得られる。
より深い3D-ResNet（例：ResNet-200）はKinetics-700およびK+M事前学習の恩恵を受け、UCF-101、HMDB-51、ActivityNetでより高い精度を達成する一方、Kinetics-400の事前学習は非常に深いモデルには安定して利益をもたらさない。
RGBのみの3D CNN（およびそれらの2+1D対応）は、より大きく注釈付きデータセットで事前学習した場合に転移が強化される傾向があるが、データサイズを単純に増やすだけでは必ずしも効果があるとは限らず、ドメインミスマッチが生じる場合がある。
表形式の結果は、事前学習の選択による具体的な利得を示しており、例えばR3D-50はKinetics-700で: UCF-101 92.0, HMDB-51 66.0, ActivityNet 75.9; K+Mでは: 92.9, 69.4, 77.0; R(2+1)D-50はKinetics-700で: 93.4, 69.4, 78.4 を示す。
この設定ではKinetics-700データセットがMiTやSTAIRなどの他の単一データセットよりも転移学習で一般的に優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。