QUICK REVIEW

[논문 리뷰] SportSkills: Physical Skill Learning from Sports Instructional Videos

Kumar Ashutosh, Chi Hsuan Wu|arXiv (Cornell University)|2026. 03. 26.

Human Pose and Action Recognition인용 수 0

한 줄 요약

SportSkills는 짝지어진 시연과 해설이 있는 대규모 스포츠 지도 영상 데이터셋을 도입하여 미세한 신체 기술 이해와 실수 조건에 따른 지시형 검색을 통해 개인화된 코칭을 가능하게 한다. 이 연구는 기술 이해도에서 최대 4배의 향상을 보이고, 전문 코치들과의 피드백 기반 검색의 타당성을 검증한다.

ABSTRACT

Current large-scale video datasets focus on general human activity, but lack depth of coverage on fine-grained activities needed to address physical skill learning. We introduce SportSkills, the first large-scale sports dataset geared towards physical skill learning with in-the-wild video. SportSkills has more than 360k instructional videos containing more than 630k visual demonstrations paired with instructional narrations explaining the know-how behind the actions from 55 varied sports. Through a suite of experiments, we show that SportSkills unlocks the ability to understand fine-grained differences between physical actions. Our representation achieves gains of up to 4x with the same model trained on traditional activity-centric datasets. Crucially, building on SportSkills, we introduce the first large-scale task formulation of mistake-conditioned instructional video retrieval, bridging representation learning and actionable feedback generation (e.g., "here's my execution of a skill; which video clip should I watch to improve it?"). Formal evaluations by professional coaches show our retrieval approach significantly advances the ability of video models to personalize visual instructions for a user query.

연구 동기 및 목표

현존하는 비디오 데이터셋에서 미세한 수준의 신체 기술 데이터가 부족한 문제를 해결하기 위해 대규모 스포츠 지도 데이터셋을 생성한다.
정확한 기술과 잘못된 기술 간의 미묘한 차이를 포착하는 신체 기술 인지 비디오 표현을 학습한다.
학습자의 실수를 교정하기 위해 지도 클립을 제안하는 검색 기반 시각 피드백 시스템을 개발하고 평가한다.
SportSkills에서 학습된 표현이 여러 스포츠에서 기술 이해를 향상시킨다는 것을 보여준다.
전문 코치 평가를 통해 실수 인지 기반의 지도적 검색의 실용적 가치를 검증한다.

제안 방법

55개 스포츠에 걸친 올바른 기법을 설명하는 전문가 해설과 함께 영상 시연을 짝지어 YouTube에서 SportSkills를 구축한다(638,399클립, 369,296개 영상).
강한 비디오-텍스트 정렬과 올바른/잘못된 시연을 보장하기 위해 LLM과 VLM을 사용하여 (비디오, 해설) 쌍을 필터링하고 정렬한다.
비디오 및 해설용 인코더를 사용한 대조학적 비디오–텍스트 표현을 학습하고, 미세한 동작을 포착하기 위해 작은 학습 가능한 프로젝터를 학습한다.
학습자 비디오가 주어졌을 때, 학습자의 실수를 다루는 지시적 클립을 순위를 매기는 관련도 점수 S(d, v) 또는 S′(t, d)를 이용한 실수 조건의 지시 검색을 정식화한다.
하위 최적 수행을 교정하기 위한 검색된 지도 클립의 관련성을 평가하기 위해 전문가 평가를 포함한 골드 스탠다드 테스트 CoachGT를 큐레이션한다.
학습자 피드백을 지시 해설로 매핑하기 위해 약하게 감독된 학습 설정을 사용하는 시각 피드백 학습 목표를 제공한다.

실험 결과

연구 질문

RQ1대규모 스포츠 지도 영상 데이터셋이 스포츠 동작에서 미세한 기술 차이(정확 vs 부정확)를 포착하는 표현 학습을 가능하게 할 수 있는가?
RQ2SportSkills에서 학습된 비디오 표현이 다수의 스포츠에서 기술 이해도(선형 탐지 성능)를 기준선과 비교하여 향상시킬 수 있는가?
RQ3학습자를 위한 실행 가능한 실수 중심의 시각 피드백을 제공하는 지도 영상 클립을 효과적으로 검색할 수 있는가?
RQ4전문 코치들은 특정 학습자 실수에 대한 검색된 시각 피드백의 관련성과 유용성을 검증하는가?

주요 결과

SportSkills는 55개 스포츠를 다루는 369,296개의 YouTube 비디오에서 638,399개의 짝지어진 클립을 포함하며, 정답 시연 559,962개와 잘못된 시연 78,437개가 있다.
SportSkills로 학습하면 전통적인 활동 중심 데이터셋에서 학습된 모델보다 기술 인지 표현 성능이 최대 4배 향상된다.
선형 프로브 평가에서 SportSkills로 학습했을 때 축구, 농구, 등반에서 올바름 대 잘못됨 시연을 분류하는 성능이 크게 향상되며(일부 스포츠에서 최대 5% 향상 사례 포함).
실수 조건의 검색 방식은 학습자의 실수와 관련된 지시 클립 정렬에서 기준선보다 현저히 우수하며, CoachGT 벤치마크에서 축구에서 가장 강한 기준선 대비 10% 향상을 보고한다.
전문 코치의 평가(CoachGT)는 제안된 검색 방법이 기준선에 비해 학습자 개선을 위한 관련 지시 클립의 순위 매기기 및 선택에 더 우수하다고 확인한다.
연구는 특정 기술 오류를 다루는 대상 시연을 검색하여 개인화된 시각 코칭의 타당성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.