QUICK REVIEW

[论文解读] STAIR Actions: A Video Dataset of Everyday Home Actions

Yuya Yoshikawa, Jiaqing Lin|arXiv (Cornell University)|Apr 12, 2018

Human Pose and Action Recognition参考文献 17被引用 30

一句话总结

本文介绍了 STAIR Actions，这是一个大规模视频数据集，包含100种细粒度的日常家庭动作，每类约1,000个视频，总计102,462个视频。该数据集可有效训练深度学习模型，在30帧剪辑上使用3D ResNet-34模型实现76.5%的top-1准确率，展示了在家庭环境中动作识别的优异性能。

ABSTRACT

A new large-scale video dataset for human action recognition, called STAIR Actions is introduced. STAIR Actions contains 100 categories of action labels representing fine-grained everyday home actions so that it can be applied to research in various home tasks such as nursing, caring, and security. In STAIR Actions, each video has a single action label. Moreover, for each action category, there are around 1,000 videos that were obtained from YouTube or produced by crowdsource workers. The duration of each video is mostly five to six seconds. The total number of videos is 102,462. We explain how we constructed STAIR Actions and show the characteristics of STAIR Actions compared to existing datasets for human action recognition. Experiments with three major models for action recognition show that STAIR Actions can train large models and achieve good performance. STAIR Actions can be downloaded from http://actions.stair.center

研究动机与目标

开发一个大规模、平衡的细粒度日常家庭动作视频数据集，用于护理、照护和安防等真实世界应用。
通过聚焦于特定领域、实用的动作类别，而非通用或体育类动作，解决现有数据集的局限性。
通过提供多样化、高质量且平衡的数据集，实现对大型深度神经网络（DNN）的有效训练，用于动作识别。
评估最先进动作识别模型在该新数据集上的性能，以验证其有效性与可扩展性。

提出的方法

该数据集通过结合YouTube视频和众包视频制作构建，确保了高度的多样性与现实相关性。
基于与常见家庭活动相关的日语基础动词，选择了100个动作类别，确保标签的细粒度与实用性。
每个视频剪辑为5–6秒（范围3–10秒），每段视频仅有一个动作标签，确保一致性并减少歧义。
在数据集上训练了三种主要深度学习架构——双流CNN、3D CNN（ResNet-34）和LRCN，以进行性能基准测试。
调整了样本持续时间（16、30、60帧），以评估其对模型准确率和训练稳定性的影。
使用标准指标（如top-1准确率和200个训练周期内的验证损失）对数据集进行了评估。

实验结果

研究问题

RQ1大规模、平衡的细粒度家庭动作视频数据集能否有效训练深度神经网络用于动作识别？
RQ2与Kinetics、ActivityNet和UCF101等现有数据集相比，STAIR Actions在类别特异性、视频质量和模型性能方面表现如何？
RQ3在应用于短时、日常家庭视频时，动作识别模型的最佳样本持续时间是多少？
RQ4尽管参数量高且存在过拟合风险，3D CNN能否在STAIR Actions上实现具有竞争力的性能？
RQ5与标准基准相比，不同模型架构（双流、3D CNN、LRCN）在该新数据集上的表现如何？

主要发现

使用30帧剪辑，3D ResNet-34模型在STAIR Actions上实现了76.5%的top-1准确率，优于其在Kinetics上报告的60.1%准确率。
30帧的样本持续时间在捕捉关键动作时刻与避免无关内容之间提供了最佳平衡。
双流CNN在STAIR Actions上实现了73.7%的平均融合准确率，表现出色，能够有效捕捉空间与时间特征。
3D CNN训练表现出稳定的收敛性，在200个周期后验证损失为0.9816，准确率达到76.46%（使用30帧剪辑）。
STAIR Actions能够有效训练大型模型（如3D ResNet-34），证明其在可扩展动作识别研究中的实用性。
该数据集的平衡分布及其对日常家庭动作的关注，使其特别适用于医疗保健、安防和机器人应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。