QUICK REVIEW

[論文レビュー] SportSkills: Physical Skill Learning from Sports Instructional Videos

Kumar Ashutosh, Chi Hsuan Wu|arXiv (Cornell University)|Mar 26, 2026

Human Pose and Action Recognition被引用数 0

ひとこと要約

tldr: SportSkills はペアのデモンストレーションと解説を伴う大規模なスポーツ指導ビデオデータセットを導入し、微細な身体技能の理解とミス条件付き指導検索を実現して個別指導を可能にします。本研究は技能理解を最大4倍向上させ、専門コーチによる評価で検索ベースのフィードバックを検証しています。

ABSTRACT

Current large-scale video datasets focus on general human activity, but lack depth of coverage on fine-grained activities needed to address physical skill learning. We introduce SportSkills, the first large-scale sports dataset geared towards physical skill learning with in-the-wild video. SportSkills has more than 360k instructional videos containing more than 630k visual demonstrations paired with instructional narrations explaining the know-how behind the actions from 55 varied sports. Through a suite of experiments, we show that SportSkills unlocks the ability to understand fine-grained differences between physical actions. Our representation achieves gains of up to 4x with the same model trained on traditional activity-centric datasets. Crucially, building on SportSkills, we introduce the first large-scale task formulation of mistake-conditioned instructional video retrieval, bridging representation learning and actionable feedback generation (e.g., "here's my execution of a skill; which video clip should I watch to improve it?"). Formal evaluations by professional coaches show our retrieval approach significantly advances the ability of video models to personalize visual instructions for a user query.

研究の動機と目的

既存のビデオデータセットにおける微細な身体技能データの欠如を解消するため、大規模なスポーツ指導データセットを作成する。
正確な技術と不正確な技術の微妙な差を捉える身体技能認識ビデオ表現を学習する。
学習者のミスを正すための指導クリップを提案するリトリーバルベースの視覚フィードバックシステムを開発・評価する。
SportSkills で訓練された表現が複数のスポーツにおける技能理解を向上させることを示す。
専門コーチによる評価でミスを意識した指導検索の実用価値を検証する。

提案手法

55種類のスポーツにわたる正しい技術を説明する専門家解説と動画デモを対にして、YouTube から SportSkills を構築する（638,399クリップ、369,296本の動画から）。
LLM と VLM を用いて（動画、解説）のペアをフィルタリング・整合させ、強固なビデオ–テキストの整合と正/不正デモンストレーションを確保する。
動画と解説のエンコーダを用いた対照的なビデオ–テキスト表現を訓練し、微細な動作を捉える小さな訓練可能プロジェクターを学習する。
学習者の動画を与えられたときに、関連度スコア S(d, v)（または S′(t, d)）が、学習者のミスに対応する指導クリップをランク付けする、ミス条件付き指導検索を定式化する。
専門家評価によるゴールドスタンダードのテスト CoachGT を作成し、取得した指導クリップの Learner の実行を正す関連性を評価する。
弱教師あり学習設定を用いて、学習者のフィードバックを指導ナレーションへマッピングする視覚フィードバック学習目的を提供する。

実験結果

リサーチクエスチョン

RQ1スポーツアクションの微細な技能差（正解 vs 不正解）を捉える表現を学習できる大規模なスポーツ指導ビデオデータセットは実現可能か。
RQ2SportSkills で訓練した学習済みビデオ表現は、複数のスポーツでの技能理解（線形プローブ性能）をベースラインと比較して向上させるか。
RQ3学習者に対して実用的でミスに焦点を当てた視覚的フィードバックを提供する指導ビデオクリップを効果的に検索できるか。
RQ4専門コーチは特定の学習者のミスに対する retrieved 視覚的フィードバックの関連性と有用性を検証するか。

主な発見

SportSkills は 55 種類のスポーツをカバーする 638,399 個のペアクリップを含み、369,296 本の動画から 559,962 件の正デモンストレーションと 78,437 件の不正デモンストレーションがある。
SportSkills での訓練は、従来のアクティビティ中心データセットで訓練したモデルに比べ、技能認識表現の性能を最大4倍改善する。
線形プローブ評価は、SportSkills で訓練した場合、サッカー、バスケットボール、ロッククライミングで正しいデモンストレーションと不正確なデモンストレーションの分類に有意な改善を示し、特定のスポーツでは最大5%の改善例も含まれる。
ミス条件付き検索アプローチは、学習者のミスと関連する指導クリップの整列でベースラインを大幅に上回り、CoachGT ベンチマークで最強ベースラインに対して10%のゲインを報告。
専門コーチの評価（CoachGT）は、提案された検索手法がベースラインよりも学習者の改善に適した関連する指導クリップをより適切にランキング・選択することを確認。
本研究は、特定の技能エラーを対象とするデモンストレーションを検索して個別化された視覚的コーチングの実現可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。