Skip to main content
QUICK REVIEW

[论文解读] The Kinetics Human Action Video Dataset

Will Kay, João Carreira|arXiv (Cornell University)|May 19, 2017
Human Pose and Action Recognition参考文献 4被引用 2,882
一句话总结

描述了 DeepMind Kinetics 数据集,具有 400 个动作类别和 ~306k 个来自 YouTube 的视频片段,用于人类动作分类,以及若干架构的基线结果和一个初步偏差分析。

ABSTRACT

We describe the DeepMind Kinetics human action video dataset. The dataset contains 400 human action classes, with at least 400 video clips for each action. Each clip lasts around 10s and is taken from a different YouTube video. The actions are human focussed and cover a broad range of classes including human-object interactions such as playing instruments, as well as human-human interactions such as shaking hands. We describe the statistics of the dataset, how it was collected, and give some baseline performance figures for neural network architectures trained and tested for human action classification on this dataset. We also carry out a preliminary analysis of whether imbalance in the dataset leads to bias in the classifiers.

研究动机与目标

  • 提供一个大型、多样化的人类动作分类基准,以推动深度学习方法的发展。
  • 确保片段来自多样化的 YouTube 视频,以最大化演员、视角、照明和背景的变异。
  • 提供基线模型性能,指导视频理解的架构选择。
  • 分析潜在的数据集偏差(例如性别或人口统计偏差)及其对分类器的影响。

提出的方法

  • 从 YouTube 挑选出覆盖单个动作、成对(人–人)以及人–物体动作的 400 个动作类别。
  • 通过 YouTube 搜索获得候选片段,并利用从图像搜索反馈训练的图像分类器进行时域定位。
  • 使用 Mechanical Turk 进行人工验证,确保片段确实描绘目标动作,并需要多次正向确认。
  • 通过 Inception-V1 的特征相似度和余弦阈值对视频中的片段进行去重,确保每个视频只有一个片段。
  • 在 Kinetics 上从头训练并评估三种基线视频架构(ConvNet+LSTM、Two-Stream 和 3D-ConvNet),在适用时进行 ImageNet 预训练,并报告 top-1/top-5 结果。
  • 讨论数据集偏差并对性别平衡和潜在分类器偏差进行初步分析。

实验结果

研究问题

  • RQ1一个视频动作数据集能有多大、多样,才能稳定地训练深度网络进行动作分类?
  • RQ2在 Kinetics 上标准视频架构的基线性能是多少,与 UCF-101 和 HMDB-51 等现有数据集相比如何?
  • RQ3Kinetics 数据集是否存在影响分类器公平性的性别或人口统计偏差,以及通过初步分析能否检测到这些偏差?
  • RQ4从网络视频中组装大型、高质量动作数据集,哪些数据收集与清理策略最有效?

主要发现

  • Kinetics 包含 400 个动作类别,每个类别 400–1150 个片段,总计 306,245 个视频和 306,245 个片段,每个片段约 10 秒。
  • 从头在 Kinetics 上训练的基线架构表现低于在 UCF-101 和 HMDB-51 上的表现,凸显该数据集的更大难度与多样性。
  • 评估了三种基线模型:ConvNet+LSTM、Two-Stream 和一个 3D ConvNet,具有不同的输入模态和时间范围,显示了时间建模与计算成本之间的权衡。
  • 初步偏差分析表明在大多数类别中没有强烈的性别偏见证据,但存在一些例外(例如“剃须”由男性主导、“篮球灌篮”由男性主导、“填眉”由女性主导),需深入研究。
  • 本文提供了 Baseline TensorFlow 实现,并讨论了预处理、数据增强和训练方案,以实现可重复性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。