QUICK REVIEW

[论文解读] Efficient Large Scale Video Classification

Balakrishnan Varadarajan, George Toderici|arXiv (Cornell University)|May 22, 2015

Human Pose and Action Recognition参考文献 26被引用 19

一句话总结

本论文提出两种高效方法——MiCRObE（校准专家混合模型）和基于LSTM的模型——利用预训练图像分类器对缩略图或Flickr图像进行大规模视频分类，避免昂贵的视频帧训练。该方法在1200万张视频和Sports-1M数据集上实现了最先进性能，计算成本低且准确率高，尤其在帧级分类和视频级预测方面表现优异。

ABSTRACT

Video classification has advanced tremendously over the recent years. A large part of the improvements in video classification had to do with the work done by the image classification community and the use of deep convolutional networks (CNNs) which produce competitive results with hand- crafted motion features. These networks were adapted to use video frames in various ways and have yielded state of the art classification results. We present two methods that build on this work, and scale it up to work with millions of videos and hundreds of thousands of classes while maintaining a low computational cost. In the context of large scale video processing, training CNNs on video frames is extremely time consuming, due to the large number of frames involved. We propose to avoid this problem by training CNNs on either YouTube thumbnails or Flickr images, and then using these networks' outputs as features for other higher level classifiers. We discuss the challenges of achieving this and propose two models for frame-level and video-level classification. The first is a highly efficient mixture of experts while the latter is based on long short term memory neural networks. We present results on the Sports-1M video dataset (1 million videos, 487 classes) and on a new dataset which has 12 million videos and 150,000 labels.

研究动机与目标

解决在包含数百万个视频和数十万个标签的大规模视频数据集上训练深度学习模型的挑战。
通过避免在原始视频帧上进行端到端训练，减少训练时间和计算成本。
利用预训练图像特征和可扩展的学习架构，实现在高效帧级和视频级分类。
开发可扩展至大规模标签空间的方法，而无需依赖帧级人工标注。
在保持快速推理和训练时间的同时，实现高准确率的视频分类。

提出的方法

在YouTube缩略图或Flickr图像上训练基于图像的CNN，以提取特征，绕过昂贵的视频帧训练。
使用最大校准模型识别并剔除无关的特征-类别相关性，降低维度，提升效率。
实施MiCRObE，即两级分类器级联：先使用弱初始模型进行困难负样本挖掘，再通过改进的专家混合模型提升帧级分类性能。
采用分层Softmax和分布式训练，使LSTM模型可扩展用于大规模标签空间的视频级分类。
在视频级别聚合帧级特征（平均值、top-k），结合早期特征融合进行视频级预测。
采用两阶段训练流程：首先在预提取特征上训练基础分类器，然后通过困难负样本和迭代优化进行微调。

实验结果

研究问题

RQ1在缩略图或Flickr图像上使用预训练图像分类器，能否有效替代大规模视频分类中的视频帧训练？
RQ2如何在高维视频特征空间中高效集成困难负样本挖掘，以构建可扩展的学习管道？
RQ3在无需帧级标注的情况下，校准专家混合模型是否能在帧级视频分类中超越标准融合方法？
RQ4在超大规模设置下，采用分层Softmax和分布式训练的LSTM模型在视频级分类中的表现如何？
RQ5特征聚合与早期融合在保持低计算成本的同时，能在多大程度上提升视频级预测准确率？

主要发现

MiCRObE在帧级分类性能上优于LSTM，在YT-12M数据集上的hit@1分数与最佳公开模型相差不超过2.8%。
LSTM模型在Sports-1M基准测试中达到59.0%的hit@1分数，与需要每视频240次推理的最先进模型表现相当。
MiCRObE在帧级精确度和融合模型质量方面优于更简单的基线方法，如最大校准和随机负样本采样。
基于从缩略图和Flickr图像中预提取特征的模型实现了高准确率，且无需端到端视频帧训练，显著减少了训练时间。
MiCRObE与LSTM输出的后期融合可进一步提升性能，表明两种方法具有互补优势。
该方法成功扩展至1200万张视频和15万个标签，证明了其在真实世界大规模视频理解任务中的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。