QUICK REVIEW

[論文レビュー] Efficient Large Scale Video Classification

Balakrishnan Varadarajan, George Toderici|arXiv (Cornell University)|May 22, 2015

Human Pose and Action Recognition参考文献 26被引用数 19

ひとこと要約

本稿では、ビデオフレームの訓練を回避するため、事前学習済み画像分類器をスナップショット画像やFlickr画像に適用することで、大規模な動画分類を効率的に行う2つの手法—MiCRObE（キャリブレーション済みエキスパートの混合）とLSTMベースのモデル—を提案する。12MビデオおよびSports-1Mデータセットにおいて、計算コストが低く、特にフレームレベル分類と動画レベル予測において高い精度を達成し、最先端の性能を発揮した。

ABSTRACT

Video classification has advanced tremendously over the recent years. A large part of the improvements in video classification had to do with the work done by the image classification community and the use of deep convolutional networks (CNNs) which produce competitive results with hand- crafted motion features. These networks were adapted to use video frames in various ways and have yielded state of the art classification results. We present two methods that build on this work, and scale it up to work with millions of videos and hundreds of thousands of classes while maintaining a low computational cost. In the context of large scale video processing, training CNNs on video frames is extremely time consuming, due to the large number of frames involved. We propose to avoid this problem by training CNNs on either YouTube thumbnails or Flickr images, and then using these networks' outputs as features for other higher level classifiers. We discuss the challenges of achieving this and propose two models for frame-level and video-level classification. The first is a highly efficient mixture of experts while the latter is based on long short term memory neural networks. We present results on the Sports-1M video dataset (1 million videos, 487 classes) and on a new dataset which has 12 million videos and 150,000 labels.

研究の動機と目的

数百万本の動画と数十万のラベルを含む大規模な動画データセットに対して、深層学習モデルを訓練する課題に対処すること。
生の動画フレームに対するエンドツーエンドの訓練を回避することで、訓練時間と計算コストを削減すること。
事前学習済み画像特徴とスケーラブルな学習アーキテクチャを用いて、効率的なフレームレベルおよび動画レベル分類を可能にすること。
フレームレベルの人的アノテーションを必要とせずに、大規模なラベル空間にスケーラブルな手法を開発すること。
高速な推論および訓練時間を維持しつつ、動画分類の高精度を達成すること。

提案手法

YouTubeのスナップショット画像やFlickr画像上で画像ベースのCNNを学習し、高価な動画フレームの訓練を回避して特徴を抽出する。
最大キャリブレーションモデルを用いて、関係のない特徴-ラベル相関を同定・除外することで次元削減を実現し、効率性を向上させる。
MiCRObEを実装する。これは2段階の分類器のカスケードであり、ハードネガティブマイニング用の弱い初期モデルの後に、フレームレベル分類の精度を向上させるエキスパートの混合モデルを配置する。
階層的ソフトマックスと分散学習を適用し、大規模なラベル空間における動画レベル分類のためのLSTMモデルをスケーリングする。
フレームレベル特徴（平均、top-k）を動画レベルに集約し、特徴の早期融合を用いて動画レベルの予測を実施する。
2段階の訓練パイプラインを採用する：まず事前に抽出された特徴上でベース分類器を学習し、その後、ハードネガティブと反復的精錬を用いてファインチューニングする。

実験結果

リサーチクエスチョン

RQ1スナップショット画像やFlickr画像における事前学習済み画像分類器が、大規模な動画分類において動画フレームの訓練に効果的に代わることができるか？
RQ2高次元の動画特徴空間におけるスケーラブルな学習パイプラインに、ハードネガティブマイニングをどのように効率的に統合できるか？
RQ3フレームレベルのアノテーションを必要とせずに、キャリブレーション済みエキスパートの混合モデルが、標準的な統合手法を上回る性能を発揮できるか？
RQ4階層的ソフトマックスと分散学習を用いたLSTMベースのモデルは、超大規模な設定における動画レベル分類でどの程度の性能を示すか？
RQ5特徴集約と早期融合は、計算コストを抑えたまま、動画レベル予測の精度をどの程度向上できるか？

主な発見

MiCRObEはLSTMよりも優れたフレームレベル分類性能を達成し、YT-12Mデータセットにおいて、最高の公表済みモデルと比較してhit@1スコアが2.8%以内に収まった。
LSTMモデルはSports-1Mベンチマークで59.0%のhit@1を達成し、1動画あたり240回の推論を要する最先端のモデルと同等の性能を示した。
MiCRObEは、max-calibration やランダムネガティブサンプリングといった単純なベースラインよりも、フレームレベルの精度と統合モデルの品質で優れた性能を発揮した。
スナップショット画像およびFlickr画像から事前に抽出された特徴を用いたモデルは、エンドツーエンドの動画フレーム訓練を一切必要とせず、高い精度を達成した。訓練時間も顕著に短縮された。
MiCRObEとLSTMの出力を後期統合することで、さらなる性能向上が見込まれ、両手法の相補的な強みが示された。
本手法は1200万本の動画および15万のラベルにスケーリングでき、実世界の大規模な動画理解に実現可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。