QUICK REVIEW

[论文解读] SportSkills: Physical Skill Learning from Sports Instructional Videos

Kumar Ashutosh, Chi Hsuan Wu|arXiv (Cornell University)|Mar 26, 2026

Human Pose and Action Recognition被引用 0

一句话总结

SportSkills 引入一个包含成对示范与解说的大规模运动教学视频数据集，能够实现对物理技能的细粒度理解和基于错误条件的教学检索以实现个性化辅导。该工作在技能理解方面显示出最高可达 4x 的提升，并用专业教练评估验证了基于检索的反馈。

ABSTRACT

Current large-scale video datasets focus on general human activity, but lack depth of coverage on fine-grained activities needed to address physical skill learning. We introduce SportSkills, the first large-scale sports dataset geared towards physical skill learning with in-the-wild video. SportSkills has more than 360k instructional videos containing more than 630k visual demonstrations paired with instructional narrations explaining the know-how behind the actions from 55 varied sports. Through a suite of experiments, we show that SportSkills unlocks the ability to understand fine-grained differences between physical actions. Our representation achieves gains of up to 4x with the same model trained on traditional activity-centric datasets. Crucially, building on SportSkills, we introduce the first large-scale task formulation of mistake-conditioned instructional video retrieval, bridging representation learning and actionable feedback generation (e.g., "here's my execution of a skill; which video clip should I watch to improve it?"). Formal evaluations by professional coaches show our retrieval approach significantly advances the ability of video models to personalize visual instructions for a user query.

研究动机与目标

通过创建大规模的运动教学数据集，解决现有视频数据集在细粒度物理技能数据方面的缺乏。
学习一个能够捕捉正确与错误技术细微差异的物理技能感知视频表示。
开发并评估一个基于检索的视觉反馈系统，向学习者提供纠正错误的教学片段。
证明在 SportSkills 上训练得到的表示能够在多种运动中提升技能理解。
通过专家教练评估验证错误感知教学检索的实际价值。

提出的方法

从 YouTube 构建 SportSkills，通过将示范视频与描述正确技术的专家解说配对，涵盖55项运动（共 638,399 条片段，来自 369,296 个视频）。
使用大语言模型和视觉-语言模型对（视频、解说）对进行过滤和对齐，确保良好的视频-文本对齐以及正确/错误示范的匹配。
训练视频–文本对比表示，使用视频和解说的编码器，并学习小型可训练投影器以捕捉细粒度动作。
提出错误条件下的教学检索，在给定学习者视频时，计算相关性分数 S(d, v)（或 S′(t, d)），对能纠正学习者错误的教学片段进行排序。
策划一个金标准测试 CoachGT，由专家评定以评估检索到的教学片段在纠正次优执行方面的相关性。
提供一个视觉反馈学习目标，利用弱监督训练将学习者反馈映射到教学解说。

实验结果

研究问题

RQ1一个大规模的运动教学视频数据集是否能够学习到在体育动作中捕捉细粒度技能差异（正确与错误）的表示？
RQ2在 SportSkills 上训练得到的视频表示是否能够相较于基线在多项运动中提升技能理解（线性探测性能）？
RQ3我们是否能够有效地检索出能够提供可操作、针对错误的视觉反馈的教学视频片段？
RQ4专业教练是否验证检索的相关性和在特定学习者错误情形下的有用性？

主要发现

SportSkills 包含来自 369,296 个 YouTube 视频的 638,399 条成对片段，覆盖 55 项运动，其中 559,962 条为正确示范，78,437 条为错误示范。
使用 SportSkills 进行训练，在以技能感知表示为目标的模型上，相对于基于传统以活动为主的数据集训练的模型，性能提升最高可达 4 倍。
线性探测评估显示，在足球、篮球和攀岩等运动中，基于 SportSkills 的学习显著提升正确 vs 错误示范的分类性能（在某些运动中的提升达 5% 以上）。
错误条件检索在将学习者错误与相关教学片段对齐方面显著优于基线，在 CoachGT 基准测试中相对于最强基线实现约 10% 的提升。
专业教练的评估（CoachGT）证实所提检索方法在为学习者改进排序和选择相关教学片段方面优于基线。
本研究证明了通过检索针对性示范来解决具体技能错误，实现个性化视觉辅导的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。