Skip to main content
QUICK REVIEW

[论文解读] Feature sampling and partitioning for visual vocabulary generation on large action classification datasets

Michael Sapienza, Fabio Cuzzolin|arXiv (Cornell University)|May 29, 2014
Human Pose and Action Recognition参考文献 23被引用 20
一句话总结

本文系统评估了视觉词汇生成中特征采样与划分策略对动作识别的影响,表明平衡采样和按组件或按类别学习视觉词汇可显著提升大规模数据集上的性能。通过使用优化采样与划分策略的Fisher向量,作者在五个主要基准上取得了最先进结果,包括在UCF101上达到81.24%的准确率和在Hollywood2上达到65.16%的mAP,准确率提升最高达37.34%。

ABSTRACT

The recent trend in action recognition is towards larger datasets, an increasing number of action classes and larger visual vocabularies. State-of-the-art human action classification in challenging video data is currently based on a bag-of-visual-words pipeline in which space-time features are aggregated globally to form a histogram. The strategies chosen to sample features and construct a visual vocabulary are critical to performance, in fact often dominating performance. In this work we provide a critical evaluation of various approaches to building a vocabulary and show that good practises do have a significant impact. By subsampling and partitioning features strategically, we are able to achieve state-of-the-art results on 5 major action recognition datasets using relatively small visual vocabularies.

研究动机与目标

  • 评估特征采样与划分策略对大规模动作分类中视觉词汇构建的影响。
  • 解决均匀随机采样导致的偏差问题,该问题倾向于偏好更长的视频和更常出现的动作类别。
  • 探究按特征组件或按动作类别分别学习视觉词汇是否能提升性能。
  • 确定在大规模数据集上实现最先进性能的词汇大小、采样策略与编码方法的最佳配置。
  • 在目前最大且最具挑战性的动作识别基准上,对这些设计选择进行全面的实证评估。

提出的方法

  • 提出一种平衡采样策略,从每个视频和动作类别中选取固定数量的特征,以避免对更长或更频繁动作的偏好。
  • 通过为每个特征组件(如轨迹、HOG、HOF)分别学习视觉词汇,而非使用单一联合词汇,实现特征空间的划分。
  • 采用按类别视觉词汇学习方法,为每个动作类别训练独立的词汇,以更好地捕捉类别特定特征。
  • 使用Fisher向量编码与k-means聚类,从学习到的词汇中生成高维、判别性强的视频表示。
  • 采用全局词袋(BoF)与Fisher向量流水线,结合优化的超参数,包括词汇大小K与维度D。
  • 在五个主要数据集(UCF101、Hollywood2、HMDB、USF101)上实施系统性实验协议,采用多种训练-测试划分,确保评估的稳健性。

实验结果

研究问题

  • RQ1与均匀随机采样相比,是否通过在视频和动作类别间均匀采样(即平衡采样)能提升大规模动作识别数据集上的性能?
  • RQ2与单一联合词汇相比,为不同特征组件(如HOG、HOF、轨迹)分别学习视觉词汇的影响如何?
  • RQ3与全局BoF或Fisher向量编码相比,按类别视觉词汇学习在准确率与泛化能力方面表现如何?
  • RQ4是否可通过小规模视觉词汇(如K=128–256)结合先进编码方法(如Fisher向量)在大规模数据集上实现最先进性能?
  • RQ5在动作分类中,采样策略、词汇划分与编码方法对整体性能的相对贡献是什么?

主要发现

  • 在53%的实验中,平衡采样优于均匀随机采样,其中在Hollywood2上取得最高65.16% mAP,在HMDB上达到50.17%准确率。
  • 为不同特征组件(如轨迹、HOG、HOF)分别学习视觉词汇带来了显著性能提升,尤其在结合Fisher向量编码时效果更明显。
  • 按类别视觉词汇学习优于全局BoF,但在UCF101与HMDB等更大、更复杂的数据集上仍不及Fisher向量。
  • 所提方法在UCF101上实现81.24%准确率、82.35% mAP与80.57% F1,较[12]中原始报告结果高出37.34%,成为新的最先进结果。
  • HMDB数据集仍最具挑战性,平衡采样与随机采样之间的性能差距最大,表明不平衡对更困难数据集的负面影响更强。
  • 计算成本主要由从磁盘加载特征所主导(UCF101耗时163.52 CPU小时),凸显了在大规模视频分析中高效I/O的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。