[论文解读] A Short Note about Kinetics-600
本文描述 Kinetics-600 数据集,是对 Kinetics-400 扩展至 600 类且每个类至少有 600 条片段,并提供数据集统计和基线 I3D 结果。
We describe an extension of the DeepMind Kinetics human action dataset from 400 classes, each with at least 400 video clips, to 600 classes, each with at least 600 video clips. In order to scale up the dataset we changed the data collection process so it uses multiple queries per class, with some of them in a language other than english -- portuguese. This paper details the changes between the two versions of the dataset and includes a comprehensive set of statistics of the new version as well as baseline results using the I3D neural network architecture. The paper is a companion to the release of the ground truth labels for the public test set.
研究动机与目标
- 将 DeepMind Kinetics 数据集从 400 到 600 类扩展,每个类至少有 600 条视频片段。
- 通过使用多语言查询和鲁棒相似性匹配来改进数据收集。
- 提供详细统计数据和基线模型结果以帮助基准测试和研究。
- 发布公开测试集的真实标签以促进独立评估。
提出的方法
- 使用每个类别的英语和葡萄牙语多语言查询来收集候选视频。
- 对元数据和相关视频标题应用加权的 n-gram 表示,以跨语言将视频匹配到类别。
- 维持与 Kinetics-400 相同的流程:类别获取、候选视频匹配、片段采样、人工验证和质量筛选。
- 在类别变更和数据集规模方面比较 Kinetics-600 与 Kinetics-400。
实验结果
研究问题
- RQ1将类别从 400 扩展到 600 如何影响动作识别基准性能?
- RQ2哪些数据收集创新(多语言查询和加权 n-gram 匹配)可改进大规模动作数据集的候选视频收集?
- RQ3Kinetics-600 相较于 Kinetics-400 的数据集统计和基线结果是什么?
主要发现
| 指标 | 有效 | 测试 | 测试 + 保留测试 |
|---|---|---|---|
| Top-1 Accuracy | 71.9% | 71.7% | 69.7% |
| Top-5 Accuracy | 90.1% | 90.4% | 89.1% |
| 100-Avg (Top-1,Top-5) | 19.0 | 19.0 | 20.6% |
- Kinetics-600 包含 600 个类别,总片段数约为 50 万,比 Kinetics-400 增加了 50% 的类别和 60% 的片段数量。
- 在 Kinetics-600 上从零开始训练的基线 I3D 模型在测试集上达到 Top-1 71.7% 和 Top-5 90.4%。
- Hold-out 测试集比标准测试集更难,Top-1 69.7% 和 Top-5 89.1%。
- Kinetics-600 包括用于 Activity-Net 挑战的标准测试集和留出测试集。
- 约 368 个原始 Kinetics-400 的类别被保留在 Kinetics-600 中,另外有 32 个类被重命名/修改,且有一些重新组织。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。