[论文解读] Generalizing Sports Feedback Generation by Watching Competitions and Reading Books: A Rock Climbing Case Study
论文展示了如何利用辅助目标域数据(比赛解说和教练书籍)在对离域数据微调后提升攀岩反馈生成的效果,并引入用于反馈质量的新评估指标。
While there is rapid progress in video-LLMs with advanced reasoning capabilities, prior work shows that these models struggle on the challenging task of sports feedback generation and require expensive and difficult-to-collect finetuning feedback data for each sport. This limitation is evident from the poor generalization to sports unseen during finetuning. Furthermore, traditional text generation evaluation metrics (e.g., BLEU-4, METEOR, ROUGE-L, BERTScore), originally developed for machine translation and summarization, fail to capture the unique aspects of sports feedback quality. To address the first problem, using rock climbing as our case study, we propose using auxiliary freely-available web data from the target domain, such as competition videos and coaching manuals, in addition to existing sports feedback from a disjoint, source domain to improve sports feedback generation performance on the target domain. To improve evaluation, we propose two evaluation metrics: (1) specificity and (2) actionability. Together, our approach enables more meaningful and practical generation of sports feedback under limited annotations.
研究动机与目标
- 自动化体育反馈生成的动机与在未看到的体育项目中标注数据有限的问题;
- 提出利用目标域中自由获取的辅助数据来提升跨域泛化能力;
- 开发并验证能够捕捉反馈的具体性和可操作性、超越传统文本相似性的评估指标;
- 显示多模态辅助数据可以提升分布外的反馈生成性能;
- 为以攀岩反馈为案例提供可重复的数据收集与细化流程。
提出的方法
- 在源域反馈(篮球/足球)上对视频条件的大模型进行微调,并使用目标域辅助数据(攀岩解说与教练文本)进行微调;
- 利用大模型将嘈杂的比赛解说精炼为简明的、与行动相关的摘要,并使用 Whisper 将其重新对齐到视频时间戳以实现精确定位;
- 将源域反馈、经精炼的目标域解说以及目标域文本的监督统一为单一自回归训练目标;
- 采用两阶段解说定位将精炼的摘要映射到视频片段中的精确时间戳;
- 引入并验证基于运动学习理论的两种大模型评估指标——具体性和可操作性;
- 使用标准文本评测指标(BLEU-4、METEOR、ROUGE-L、BERTScore)以及新指标来评估泛化性和反馈质量。
实验结果
研究问题
- RQ1辅助自由获取的目标域数据能否提升未见运动项目的反馈生成?
- RQ2目标域解说的精炼与精确定位对训练效果有何影响?
- RQ3在体育反馈中,行动性与具体性是否比传统的词汇/语义指标更能反映反馈质量?
- RQ4各辅助数据源(解说与教练文本)对跨域泛化的贡献如何?
- RQ5在微调过程中引入目标域数据是否能显著减少知识损失?
主要发现
| 数据类型 | METEOR | ROUGE-L | BERT | |
|---|---|---|---|---|
| Zero-Shot | 1.75 | 15.08 ± 0.12 | 19.78 ± 0.04 | 30.3 |
| OOD Fd. | 1.30 | 11.45 ± 0.12 | 17.30 ± 0.11 | 25.4 |
| Text | 15.22 ± 0.06 | 19.74 ± 0.04 | 30.4 | |
| Commentary, Fd. | 15.38 ± 0.10 | 23.39 ± 0.06 | 37.0 | |
| Text, Com., Fd. | 15.59 ± 0.14 | 24.01 ± 0.05 | 37.9 |
- 利用辅助多模态数据结合离域反馈,提升分布外的攀岩反馈生成,相较仅使用离域反馈(BLEU-4 +106%、METEOR +36%、ROUGE-L +39%、BERTScore +25%)。
- 两阶段的精炼与精确定位将目标域解说与视频时间戳对齐,实现有效的跨域迁移。
- 提出的行动性和具体性指标与人类表现相关,提供超越传统指标的可解释、与任务相关的评估方式。
- 纯文本的教练数据在行动性方面带来显著提升,凸显文本领域知识与解说数据之间的互补性。
- GPT-4o-mini 在对具体性(70.8%)和可操作性(85.7%)的评分中表现出强大准确性,支持自动评估的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。