QUICK REVIEW

[論文レビュー] Generalizing Sports Feedback Generation by Watching Competitions and Reading Books: A Rock Climbing Case Study

Arushi Rai, Adriana Kovashka|arXiv (Cornell University)|Feb 9, 2026

Artificial Intelligence in Games被引用数 0

ひとこと要約

要約: 論文は、補助的なターゲットドメインデータ（競技解説とコーチング本）が、ドメイン外データでファインチューニングしたモデルのクライミングのフィードバック生成を改善できる方法を示し、フィードバック品質の新しい評価指標を導入します。

ABSTRACT

While there is rapid progress in video-LLMs with advanced reasoning capabilities, prior work shows that these models struggle on the challenging task of sports feedback generation and require expensive and difficult-to-collect finetuning feedback data for each sport. This limitation is evident from the poor generalization to sports unseen during finetuning. Furthermore, traditional text generation evaluation metrics (e.g., BLEU-4, METEOR, ROUGE-L, BERTScore), originally developed for machine translation and summarization, fail to capture the unique aspects of sports feedback quality. To address the first problem, using rock climbing as our case study, we propose using auxiliary freely-available web data from the target domain, such as competition videos and coaching manuals, in addition to existing sports feedback from a disjoint, source domain to improve sports feedback generation performance on the target domain. To improve evaluation, we propose two evaluation metrics: (1) specificity and (2) actionability. Together, our approach enables more meaningful and practical generation of sports feedback under limited annotations.

研究の動機と目的

自動スポーツフィードバック生成を動機づけ、未見スポーツのラベル付きデータの制限に対処する。
ターゲットドメインの自由に入手可能な補助データを活用して、クロスドメイン一般化を改善する。
従来のテキスト類似度を超えるフィードバックの具体性と実用性を捉える評価指標を開発・検証する。
多模態の補助データが分布外のフィードバック生成性能を改善することを示す。
クライミングのフィードバックをケーススタディとして扱い、再利用可能なデータ収集・改良パイプラインを提供する。

提案手法

ソースドメインのフィードバック（バスケットボール/サッカー）とターゲットドメインの補助データ（クライミング解説およびコーチング文本）で動画条件付きLLMをファインチューニングする。
ノイズの多い競技解説を、Llmを用いて簡潔で関連行動の要約に精製し、Whisperでビデオのタイムスタンプへ正確に再配置する。
ソースドメインのフィードバック・精製済みターゲットドメインの解説・ターゲットドメインの文本を一つの自己回帰トレーニング目標に統合する。
精製済み要約を正確なタイムスタンプへマッピングする二段階の解説局在化を用いる。
運動学習理論に基づく特異性と実用性という二つのLLMベース評価指標を導入・検証する。
標準的なテキスト指標（BLEU-4、METEOR、ROUGE-L、BERTScore）と新指標を用いて、一般化とフィードバック品質を評価する。

実験結果

リサーチクエスチョン

RQ1ターゲットドメインの自由入手データは、見たことのないスポーツのフィードバック生成を改善できるか？
RQ2ターゲットドメインの解説の精製と正確な局在化は、訓練効果にどのように影響するか？
RQ3アクショナビリティと特異性は、スポーツフィードバックにおける従来の語彙・意味指標より品質をより良く捉えるのか？
RQ4補助データ源（解説とコーチング文本）それぞれがクロスドメイン一般化にどのように寄与するのか？
RQ5ファインチューニング時にターゲットドメインデータを組み込むことで知識喪失の測定可能な削減があるか？

主な発見

データタイプ	METEOR	ROUGE-L	BERT
Zero-Shot	1.75	15.08 ± 0.12	19.78 ± 0.04	30.3
OOD Fd.	1.30	11.45 ± 0.12	17.30 ± 0.11	25.4
Text	15.22 ± 0.06	19.74 ± 0.04	30.4
Commentary, Fd.	15.38 ± 0.10	23.39 ± 0.06	37.0
Text, Com., Fd.	15.59 ± 0.14	24.01 ± 0.05	37.9

補助的なマルチモーダルデータとドメイン外フィードバックを併用することで、ドメイン外のクライミングフィードバック生成が、ドメイン外フィードバックのみの場合より改善される（BLEU-4 +106%、METEOR +36%、ROUGE-L +39%、BERTScore +25%）。
二段階の精製と正確な局在化により、ターゲットドメインの解説をビデオのタイムスタンプと整列させ、効果的なクロスドメイン転写を実現。
提案されたアクショナビリティと特異性の指標は人間のパフォーマンスと相関し、従来の指標を超える解釈可能でタスク関連の評価を提供する。
テキストのみのコーチングデータはアクショナビリティの強い改善をもたらし、文本ドメイン知識と解説データの相補性を強調する。
GPT-4o-miniは、特異性の点で70.8%、アクショナビリティで85.7%の高い精度を示し、自動評価の妥当性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。