QUICK REVIEW

[论文解读] A discussion on the validation tests employed to compare human action recognition methods using the MSR Action3D dataset

José Ramón Padilla López, Alexandros André Chaaraoui|arXiv (Cornell University)|Jul 28, 2014

Human Pose and Action Recognition参考文献 80被引用 46

一句话总结

本文研究了基于 MSR Action3D 数据集的 62项人体动作识别研究中验证方法的不一致性，揭示了不同训练-测试划分方式和样本数量导致无法进行公平比较。作者提出了标准化的验证协议——特别是 5-5 交叉验证（252 种划分）和留一演员交叉验证——并在每种协议下对方法进行排序，以实现可靠的基准测试。

ABSTRACT

This paper aims to determine which is the best human action recognition method based on features extracted from RGB-D devices, such as the Microsoft Kinect. A review of all the papers that make reference to MSR Action3D, the most used dataset that includes depth information acquired from a RGB-D device, has been performed. We found that the validation method used by each work differs from the others. So, a direct comparison among works cannot be made. However, almost all the works present their results comparing them without taking into account this issue. Therefore, we present different rankings according to the methodology used for the validation in orden to clarify the existing confusion.

研究动机与目标

识别并解决在 MSR Action3D 数据集上人体动作识别方法所使用的验证协议中的不一致性。
阐明为何由于实验设置的差异，当前无法对最先进结果进行直接比较。
提出并评估稳健的验证策略——特别是 5-5 交叉验证和留一演员交叉验证——以实现公平的基准测试。
基于标准化验证协议对现有方法进行排序，以提高未来研究的可复现性和可比性。

提出的方法

系统性回顾 176篇引用 MSR Action3D 的论文，其中 62篇被选中进行验证方法的详细分析。
根据其验证策略对论文进行分类：随机划分、留一演员交叉验证或 5-5 交叉验证。
在标准化的 252 种划分的 5-5 交叉验证和留一演员交叉验证协议下重新评估方法性能。
基于每种标准化验证方案下的准确率对方法进行排序，以实现公平比较。
识别关键问题，如样本数量不一致（例如 402 个对比 557 个样本）以及数据划分方法缺乏透明度。
推荐 5-5 交叉验证作为最稳健的方法，并将留一演员交叉验证作为计算成本过高时的可行替代方案。

实验结果

研究问题

RQ1为何当前在 MSR Action3D 数据集上对人体动作识别方法的直接比较不可靠？
RQ2现有研究中验证协议（如数据划分、样本数量）的主要不一致性是什么？
RQ3在 5-5 交叉验证与留一演员交叉验证之间，哪种验证方法能提供最稳健且可复现的评估？
RQ4当在标准化验证协议下评估时，动作识别方法的性能排名如何变化？
RQ5数据划分描述不清晰或缺失对 HAR 研究中可复现性和基准测试有何影响？

主要发现

5-5 交叉验证方法，即所有 252 种 5 名演员用于训练、5 名演员用于测试的组合，被确定为最稳健的验证策略。
当完整 5-5 交叉验证计算成本过高时，建议将留一演员交叉验证作为计算上可行的替代方案。
在 5-5 交叉验证下报告的最高准确率为 88.38%，对应于基于高效姿态的人体动作识别方法（Eweiwi et al., 2015）。
多项研究使用了错误的样本数量（例如 402 个样本而非 557 个），导致混淆并可能在比较中引入偏差。
仅 13% 的被审查论文明确描述了其数据划分方法，严重限制了可复现性和公平基准测试。
本研究揭示，方法排名在很大程度上取决于所采用的验证协议，这削弱了现有比较性结论的可信度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。