Skip to main content
QUICK REVIEW

[논문 리뷰] Am I a Baller? Basketball Skill Assessment using First-Person Cameras.

Gedas Bertasius, Stella X. Yu|arXiv (Cornell University)|2016. 11. 16.
Human Pose and Action Recognition참고 문헌 8인용 수 3
한 줄 요약

이 논문은 레이블이 부여된 비디오 쌍으로부터 평가자별 선호도를 학습하여, 1인칭 비디오 기반으로 농구 선수의 성과를 평가하는 방법을 제안한다. 원자적 사건을 탐지하기 위해 컨volutional LSTM을 사용하고, 비선형 공간-시간 특징을 인코딩하기 위해 가우시안 믹스처 모델을 적용함으로써, 평가자의 기준을 사전에 알지 못한 상태에서도 선수 순위를 정확하게 예측할 수 있으며, 성과에 영향을 주는 사건을 식별할 수도 있다.

ABSTRACT

This paper presents a method to assess a basketball player's performance from his/her first-person video. A key challenge lies in the fact that the evaluation metric is highly subjective and specific to a particular evaluator. We leverage the first-person camera to address this challenge. The spatiotemporal visual semantics provided by a first-person view allows us to reason about the camera wearer's actions while he/she is participating in an unscripted basketball game. Our method takes a player's first-person video and provides a player's performance measure that is specific to an evaluator's preference. To achieve this goal, we first use a convolutional LSTM network to detect atomic basketball events from first-person videos. Our network's ability to zoom-in to the salient regions addresses the issue of a severe camera wearer's head movement in first-person videos. The detected atomic events are then passed through the Gaussian mixtures to construct a highly non-linear visual spatiotemporal basketball assessment feature. Finally, we use this feature to learn a basketball assessment model from pairs of labeled first-person basketball videos, for which a basketball expert indicates, which of the two players is better. We demonstrate that despite not knowing the basketball evaluator's criterion, our model learns to accurately assess the players in real-world games. Furthermore, our model can also discover basketball events that contribute positively and negatively to a player's performance.

연구 동기 및 목표

  • 실생활의 자연스럽고 시나리오가 없는 경기에서 성과 평가의 주관성과 평가자별 특수성 문제를 해결하기 위해.
  • 1인칭 영상 자료를 활용해 선수의 경기 내 행동과 결정을 반영하는 공간-시간적 시각적 의미를 추출하기 위해.
  • 농구 전문가가 레이블을 부여한 영상 쌍을 기반으로 개인화된 성과 평가 모델을 학습하기 위해.
  • 특정 농구 이벤트가 전체 성과 점수에 긍정적 또는 부정적으로 기여하는지 식별하기 위해.

제안 방법

  • 1인칭 영상 프레임에서 원자적 농구 이벤트(예: 드리블, 슛팅, 패assing)를 탐지하기 위해 컨volutional LSTM 네트워크를 사용한다.
  • 공간적 어텐션 메커니즘을 적용하여 주목할 만한 영역에 집중함으로써, 1인칭 영상에서 발생하는 머리 움직임으로 인한 왜곡을 완화한다.
  • 탐지된 이벤트의 시간적 동역학을 가우시안 믹스처 모델을 사용해 모델링하여 비선형적이고 고차원적인 시각적 공간-시간 특징을 생성한다.
  • 전문가가 어느 선수가 더 나은지 표시한 1인칭 영상 쌍을 사용하여 성과 평가 모델을 훈련한다.
  • 명시적인 기준 없이도 평가자의 기준과 일치하는 선호도 인식 표현을 학습한다.
  • 훈련된 모델을 활용해 성과 점수를 추론하고, 전체 평가에 기여하는 이벤트 수준의 기여도를 해석 가능하게 한다.

실험 결과

연구 질문

  • RQ1딥 러닝 모델이 평가자의 구체적인 기준을 알지 못한 채, 단지 1인칭 영상과 전문가가 레이블을 부여한 비교 정보만을 사용하여 농구 성과를 정확히 평가할 수 있는가?
  • RQ2모델은 자연스럽고 시나리오가 없는 1인칭 플레이에서 의미 있는 농구 이벤트를 얼마나 잘 탐지하고 국소화할 수 있는가?
  • RQ3모델이 특정 경기 행동이 선수의 성과 점수에 긍정적 또는 부정적으로 기여하는 정도를 어느 정도 정확하게 식별할 수 있는가?
  • RQ4모델은 다양한 카메라 움직임과 복잡한 시각적 환경을 가진 실생활 농구 경기로 일반화될 수 있는가?

주요 결과

  • 모델은 평가자의 선호도 기준을 명시적으로 알지 못한 상태에서도, 쌍으로 제공된 1인칭 영상에서 어느 선수가 더 나은지 높은 정확도로 예측할 수 있다.
  • 중대한 카메라 움직임이 존재하는 상황에서도 모델은 1인칭 영상에서 원자적 농구 이벤트를 성공적으로 탐지하고 국소화할 수 있다.
  • 가우시안 믹스처 모델 기반의 특징 인코딩이 성과 평가에 관련된 복잡한 비선형 공간-시간 패턴을 효과적으로 포착한다.
  • 모델은 실수한 슛팅이나 부적절한 패assing과 같은 특정 이벤트를 식별하여 선수 점수에 악영향을 주는 요소를 제공함으로써 해석 가능한 피드백을 제공한다.
  • 모델는 시각적 노이즈와 동적인 카메라 움직임에 강건함을 보이며, 실생활의 자연스러운 경기로 잘 일반화된다.
  • 성과 평가 모델은 오직 영상 쌍 비교를 통한 약한 지도 신호만으로도 전문가의 판단과 일치하는 방향으로 학습된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.