[论文解读] Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance
本文提出了一种去上下文化的 I3D ConvNet 方法,通过从比赛检查点拍摄的视频片段中提取运动特征(来自 RGB 和光流输入),实现对超长距离跑者表现的估计。该方法在分类当前检查点表现方面准确率达到 83.7%,在预测下一个检查点表现方面准确率达到 77.1%,表明尽管上下文信息有助于提升性能,但在超长距离跑步场景中并非实现可靠表现估计的必要条件。
In May 2021, the site runnersworld.com published that participation in ultra-distance races has increased by 1,676% in the last 23 years. Moreover, nearly 41% of those runners participate in more than one race per year. The development of wearable devices has undoubtedly contributed to motivating participants by providing performance measures in real-time. However, we believe there is room for improvement, particularly from the organizers point of view. This work aims to determine how the runners performance can be quantified and predicted by considering a non-invasive technique focusing on the ultra-running scenario. In this sense, participants are captured when they pass through a set of locations placed along the race track. Each footage is considered an input to an I3D ConvNet to extract the participant's running gait in our work. Furthermore, weather and illumination capture conditions or occlusions may affect these footages due to the race staff and other runners. To address this challenging task, we have tracked and codified the participant's running gait at some RPs and removed the context intending to ensure a runner-of-interest proper evaluation. The evaluation suggests that the features extracted by an I3D ConvNet provide enough information to estimate the participant's performance along the different race tracks.
研究动机与目标
- 开发一种非侵入式、基于视频的方法,用于在比赛检查点评估超长距离跑者的表现。
- 评估上下文视觉信息(如环境、其他跑者)是否对准确表现估计至关重要。
- 确定是否可仅使用当前检查点的视频输入来预测下一个检查点的表现。
- 研究在真实世界超长距离跑步场景中,去除上下文与模型性能之间的权衡。
- 为赛事组织者和医疗人员提供可解释的、实时的表现反馈。
提出的方法
- 使用预训练的 I3D ConvNet,通过 RGB 和光流分支从比赛检查点处跑者短时视频片段中提取时空特征。
- 通过边界框(BB)或姿态估计(VIBE)将跑者从画面中隔离,实现去上下文化,以消除环境和遮挡带来的干扰。
- 采用质量评估指标,根据每个检查点的分段时间将跑者表现划分为离散类别(如:优秀、非常好)。
- 在 I3D 嵌入特征上训练分类器(XGBoost),以预测当前和下一个检查点的表现类别。
- 使用 Kinetics-400 预训练模型进行迁移学习,随后在包含 214 名超长距离跑者的自定义数据集上对多个检查点进行微调。
- 通过消融实验比较原始视频、边界框和 VIBE 输入,评估上下文去除对性能的影响。
实验结果
研究问题
- RQ1是否可仅依靠运动特征而无需上下文线索,准确估计跑者表现?
- RQ2通过边界框去除环境上下文后,对预训练 I3D ConvNet 的表现估计准确率影响有多大?
- RQ3在仅使用当前检查点视频输入的情况下,模型在多大程度上可预测下一个检查点的表现?
- RQ4不同表现分类等级对模型准确率和可扩展性有何影响?
- RQ5在缺乏上下文信息的情况下,RGB 和光流分支的相对贡献如何?
主要发现
- 当使用原始视频输入时,I3D ConvNet 在分类当前检查点表现方面达到 83.7% 的准确率,表明其在真实世界超长距离跑步场景中具有强大性能。
- 通过边界框(BB)去除上下文信息后,准确率相比原始视频输入下降 3–5%,表明上下文信息仍对模型性能有所贡献。
- 在 BB 与 VIBE 输入之间,准确率仅下降 1–2%,表明模型对场景杂乱和画面中存在多名跑者具有较强鲁棒性。
- XGBoost 表现优于其他分类器,准确率最高,可能得益于其顺序提升机制,可逐步优化弱学习器。
- 与 C3D 和 3D ResNet 相比,I3D ConvNet 的准确率分别高出 10–15% 和 2–5%,凸显其在此任务中的优越性。
- 仅使用当前检查点视频输入,模型在预测下一个检查点表现方面达到 77.1% 的准确率,显示出在实时风险监测方面的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。