QUICK REVIEW

[论文解读] UCF-101: A dataset of 101 human actions classes from videos in the wild

Khurram Soomro, Amir Zamir|arXiv (Cornell University)|Dec 3, 2012

Human Pose and Action Recognition参考文献 9被引用 4,437

一句话总结

UCF101 引入了一个庞大且无限制的动作识别数据集，包含 101 个类别和来自 YouTube 的 13,320 段片段，并提供使用词袋方法的基线结果。

ABSTRACT

We introduce UCF101 which is currently the largest dataset of human actions. It consists of 101 action classes, over 13k clips and 27 hours of video data. The database consists of realistic user uploaded videos containing camera motion and cluttered background. Additionally, we provide baseline action recognition results on this new dataset using standard bag of words approach with overall performance of 44.5%. To the best of our knowledge, UCF101 is currently the most challenging dataset of actions due to its large number of classes, large number of clips and also unconstrained nature of such clips.

研究动机与目标

解决缺乏具有现实背景和相机运动的大型、多样化动作数据集的问题。
提供一个从网络视频捕获的大型基准数据集（101 个类别，13k+ 段片段），用于评估动作识别方法。
提供基线识别结果，以确立该数据集上的参考性能。
描述数据集的属性（分组结构、片段时长、分辨率、音频可用性），以便可重复性和基准测试。

提出的方法

从网络视频中构建一个包含 101 个动作类别的数据集，每个动作有 25 个分组，每组 4–7 段片段。
采用 25 FPS、320x240 分辨率、DivX 编码的 AVI 片段，保留音频用于 51 个动作。
提取 Harris3D 角点并计算 162 维的 HOG/HOF 描述子。
通过对 100,000 个 STIP 特征使用 k-means 构建一个 4000 维的码本，并将每个片段表示为一个 4000 维直方图。
使用直方图交叉核的非线性多类 SVM，采用留一组的 25 折交叉验证。
报告基线准确率及按类型的混淆情况，使用 BoW 基线。

实验结果

研究问题

RQ1在不受控的真实世界视频中，构建一个稳健动作识别基准需要的规模和多样性是多少？
RQ2在包含相机运动和混杂背景的大型多样性动作数据集中，标准的词袋表示的表现如何？
RQ3在 UCF101 上，不同动作类型类别的基线识别率是多少？
RQ4片段特征（分组、长度、背景、运动）如何影响识别性能？

主要发现

UCF101 包含 101 个动作类别和 13,320 段片段，总计约 1600 分钟视频。
基线 BoW 方法，使用 4000 词码本，达到 44.5% 的整体准确率。
体育动作因运动特征明显且背景较少混乱，基线准确率最高（约 50.54%）。
人-物交互和仅人体运动类别的基线准确率显著较低（约 37–38%）。
该数据集比之前的数据集更大、挑战性更高，包含无限制的网络视频和可变片段长度。
作者建议在 UCF101 上采用 25 折交叉验证以实现一致的评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。