Skip to main content
QUICK REVIEW

[论文解读] YouTube-8M: A Large-Scale Video Classification Benchmark

Sami Abu-El-Haija, Nisarg Kothari|arXiv (Cornell University)|Sep 27, 2016
Multimodal Machine Learning Applications参考文献 32被引用 920
一句话总结

本文介绍 YouTube-8M,一个大规模多标签视频分类基准,拥有约8.3M个视频(500k+ 小时)和4,800个标签,外加预提取的帧特征和基线。它评估基于帧的和视频级表示,并展示对 Sports-1M 和 ActivityNet 的迁移。

ABSTRACT

Many recent advancements in Computer Vision are attributed to large datasets. Open-source software packages for Machine Learning and inexpensive commodity hardware have reduced the barrier of entry for exploring novel approaches at scale. It is possible to train models over millions of examples within a few days. Although large-scale datasets exist for image understanding, such as ImageNet, there are no comparable size video classification datasets. In this paper, we introduce YouTube-8M, the largest multi-label video classification dataset, composed of ~8 million videos (500K hours of video), annotated with a vocabulary of 4800 visual entities. To get the videos and their labels, we used a YouTube video annotation system, which labels videos with their main topics. While the labels are machine-generated, they have high-precision and are derived from a variety of human-based signals including metadata and query click signals. We filtered the video labels (Knowledge Graph entities) using both automated and manual curation strategies, including asking human raters if the labels are visually recognizable. Then, we decoded each video at one-frame-per-second, and used a Deep CNN pre-trained on ImageNet to extract the hidden representation immediately prior to the classification layer. Finally, we compressed the frame features and make both the features and video-level labels available for download. We trained various (modest) classification models on the dataset, evaluated them using popular evaluation metrics, and report them as baselines. Despite the size of the dataset, some of our models train to convergence in less than a day on a single machine using TensorFlow. We plan to release code for training a TensorFlow model and for computing metrics.

研究动机与目标

  • 引入一个基于 YouTube 数据的大规模、通用多标签视频分类基准。
  • 提供一个包含跨多样顶层类别的 4,800 个知识图谱实体的可视化可识别词汇表。
  • 提供预计算的帧级特征和标准化的训练/验证/测试划分,以促进可扩展研究。
  • 展示基于固定帧特征和固定视频表示的基线模型,并探索迁移学习到其他基准。

提出的方法

  • 构建一个可视化的多标签词汇表,约10,000个视觉可识别实体(筛选到≥200个视频)
  • 收集 ~8.26 百万视频(≈500k 小时),每个视频1,400+帧用于特征提取和标注
  • 以每秒1帧解码视频;从 Inception 提取 2048 维 pool_3/_reshape 特征;对其进行 PCA+ whitening 至 1024 维;通过 8 位量化实现 8x 压缩
  • 为所有视频及标签分区提供固定帧级特征;发布 train/validate/test 划分(train:validate:test = 5,786,881:1,652,167:825,602)
  • 训练简单的帧级和视频级模型:一对多逻辑回归分类器、带铰链损失的在线 SVM,以及专家混合变体;探索在帧特征上使用 Deep Bag-of-Frames (DBoF) 和 LSTM
  • 通过聚合帧特征(均值、标准差、前 K 个序统计量)并用 PCA whitening 归一化来探索视频级表示;在这些紧凑表示上训练二元分类器。

实验结果

研究问题

  • RQ1一个大规模、多样化的多标签视频数据集是否能够在超越动作中心基准的情景中学习通用的视频表示?
  • RQ2固定帧级特征和固定视频级表示在如此规模下对可扩展多标签视频分类的支持程度如何?
  • RQ3在 YouTube-8M 上学习的表示是否能迁移到其他基准,如 Sports-1M 和 ActivityNet?
  • RQ4模型选择(逻辑回归、铰链损失 SVM、专家混合、LSTM)对多标签视频分类性能的影响是什么?
  • RQ5数据集规模和标签噪声如何影响评估和基线?

主要发现

  • YouTube-8M 包含 ~8.26 百万视频,4,800 个类别,和 ≈1.9 十亿帧,在 1 FPS 处理前 6 分钟后。
  • 预计算的帧特征(2048 维)配合 PCA+ whitening 和 8 位量化,使研究人员能够在不进行大量计算的情况下实现可扩展基线。
  • 基于固定帧特征和视频级表示的基线模型可以在单机 TensorFlow 上训练,并在这组数据上不到一天就收敛。
  • 在 YouTube-8M 上学习的视频表示对其他基准如 Sports-1M 和 ActivityNet 表现出良好的泛化,ActivityNet 上有显著提升(mAP 从 53.8% 提升至 77.6%)。
  • 人工标注的测试子集显示对真实标签的精度为 78.8% ,召回率为 14.5%,突出了缺失标签的挑战以及对建模错误或缺失标签的机会。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。