Skip to main content
QUICK REVIEW

[논문 리뷰] SportSkills: Physical Skill Learning from Sports Instructional Videos

Kumar Ashutosh, Chi Hsuan Wu|arXiv (Cornell University)|2026. 03. 26.
Human Pose and Action Recognition인용 수 0
한 줄 요약

SportSkills는 짝지어진 시연과 해설이 있는 대규모 스포츠 지도 영상 데이터셋을 도입하여 미세한 신체 기술 이해와 실수 조건에 따른 지시형 검색을 통해 개인화된 코칭을 가능하게 한다. 이 연구는 기술 이해도에서 최대 4배의 향상을 보이고, 전문 코치들과의 피드백 기반 검색의 타당성을 검증한다.

ABSTRACT

Current large-scale video datasets focus on general human activity, but lack depth of coverage on fine-grained activities needed to address physical skill learning. We introduce SportSkills, the first large-scale sports dataset geared towards physical skill learning with in-the-wild video. SportSkills has more than 360k instructional videos containing more than 630k visual demonstrations paired with instructional narrations explaining the know-how behind the actions from 55 varied sports. Through a suite of experiments, we show that SportSkills unlocks the ability to understand fine-grained differences between physical actions. Our representation achieves gains of up to 4x with the same model trained on traditional activity-centric datasets. Crucially, building on SportSkills, we introduce the first large-scale task formulation of mistake-conditioned instructional video retrieval, bridging representation learning and actionable feedback generation (e.g., "here's my execution of a skill; which video clip should I watch to improve it?"). Formal evaluations by professional coaches show our retrieval approach significantly advances the ability of video models to personalize visual instructions for a user query.

연구 동기 및 목표

  • 현존하는 비디오 데이터셋에서 미세한 수준의 신체 기술 데이터가 부족한 문제를 해결하기 위해 대규모 스포츠 지도 데이터셋을 생성한다.
  • 정확한 기술과 잘못된 기술 간의 미묘한 차이를 포착하는 신체 기술 인지 비디오 표현을 학습한다.
  • 학습자의 실수를 교정하기 위해 지도 클립을 제안하는 검색 기반 시각 피드백 시스템을 개발하고 평가한다.
  • SportSkills에서 학습된 표현이 여러 스포츠에서 기술 이해를 향상시킨다는 것을 보여준다.
  • 전문 코치 평가를 통해 실수 인지 기반의 지도적 검색의 실용적 가치를 검증한다.

제안 방법

  • 55개 스포츠에 걸친 올바른 기법을 설명하는 전문가 해설과 함께 영상 시연을 짝지어 YouTube에서 SportSkills를 구축한다(638,399클립, 369,296개 영상).
  • 강한 비디오-텍스트 정렬과 올바른/잘못된 시연을 보장하기 위해 LLM과 VLM을 사용하여 (비디오, 해설) 쌍을 필터링하고 정렬한다.
  • 비디오 및 해설용 인코더를 사용한 대조학적 비디오–텍스트 표현을 학습하고, 미세한 동작을 포착하기 위해 작은 학습 가능한 프로젝터를 학습한다.
  • 학습자 비디오가 주어졌을 때, 학습자의 실수를 다루는 지시적 클립을 순위를 매기는 관련도 점수 S(d, v) 또는 S′(t, d)를 이용한 실수 조건의 지시 검색을 정식화한다.
  • 하위 최적 수행을 교정하기 위한 검색된 지도 클립의 관련성을 평가하기 위해 전문가 평가를 포함한 골드 스탠다드 테스트 CoachGT를 큐레이션한다.
  • 학습자 피드백을 지시 해설로 매핑하기 위해 약하게 감독된 학습 설정을 사용하는 시각 피드백 학습 목표를 제공한다.

실험 결과

연구 질문

  • RQ1대규모 스포츠 지도 영상 데이터셋이 스포츠 동작에서 미세한 기술 차이(정확 vs 부정확)를 포착하는 표현 학습을 가능하게 할 수 있는가?
  • RQ2SportSkills에서 학습된 비디오 표현이 다수의 스포츠에서 기술 이해도(선형 탐지 성능)를 기준선과 비교하여 향상시킬 수 있는가?
  • RQ3학습자를 위한 실행 가능한 실수 중심의 시각 피드백을 제공하는 지도 영상 클립을 효과적으로 검색할 수 있는가?
  • RQ4전문 코치들은 특정 학습자 실수에 대한 검색된 시각 피드백의 관련성과 유용성을 검증하는가?

주요 결과

  • SportSkills는 55개 스포츠를 다루는 369,296개의 YouTube 비디오에서 638,399개의 짝지어진 클립을 포함하며, 정답 시연 559,962개와 잘못된 시연 78,437개가 있다.
  • SportSkills로 학습하면 전통적인 활동 중심 데이터셋에서 학습된 모델보다 기술 인지 표현 성능이 최대 4배 향상된다.
  • 선형 프로브 평가에서 SportSkills로 학습했을 때 축구, 농구, 등반에서 올바름 대 잘못됨 시연을 분류하는 성능이 크게 향상되며(일부 스포츠에서 최대 5% 향상 사례 포함).
  • 실수 조건의 검색 방식은 학습자의 실수와 관련된 지시 클립 정렬에서 기준선보다 현저히 우수하며, CoachGT 벤치마크에서 축구에서 가장 강한 기준선 대비 10% 향상을 보고한다.
  • 전문 코치의 평가(CoachGT)는 제안된 검색 방법이 기준선에 비해 학습자 개선을 위한 관련 지시 클립의 순위 매기기 및 선택에 더 우수하다고 확인한다.
  • 연구는 특정 기술 오류를 다루는 대상 시연을 검색하여 개인화된 시각 코칭의 타당성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.