QUICK REVIEW

[논문 리뷰] Am I a Baller? Basketball Skill Assessment using First-Person Cameras.

Gedas Bertasius, Stella X. Yu|arXiv (Cornell University)|2016. 11. 16.

Human Pose and Action Recognition참고 문헌 8인용 수 3

한 줄 요약

이 논문은 레이블이 부여된 비디오 쌍으로부터 평가자별 선호도를 학습하여, 1인칭 비디오 기반으로 농구 선수의 성과를 평가하는 방법을 제안한다. 원자적 사건을 탐지하기 위해 컨volutional LSTM을 사용하고, 비선형 공간-시간 특징을 인코딩하기 위해 가우시안 믹스처 모델을 적용함으로써, 평가자의 기준을 사전에 알지 못한 상태에서도 선수 순위를 정확하게 예측할 수 있으며, 성과에 영향을 주는 사건을 식별할 수도 있다.

ABSTRACT

This paper presents a method to assess a basketball player's performance from his/her first-person video. A key challenge lies in the fact that the evaluation metric is highly subjective and specific to a particular evaluator. We leverage the first-person camera to address this challenge. The spatiotemporal visual semantics provided by a first-person view allows us to reason about the camera wearer's actions while he/she is participating in an unscripted basketball game. Our method takes a player's first-person video and provides a player's performance measure that is specific to an evaluator's preference. To achieve this goal, we first use a convolutional LSTM network to detect atomic basketball events from first-person videos. Our network's ability to zoom-in to the salient regions addresses the issue of a severe camera wearer's head movement in first-person videos. The detected atomic events are then passed through the Gaussian mixtures to construct a highly non-linear visual spatiotemporal basketball assessment feature. Finally, we use this feature to learn a basketball assessment model from pairs of labeled first-person basketball videos, for which a basketball expert indicates, which of the two players is better. We demonstrate that despite not knowing the basketball evaluator's criterion, our model learns to accurately assess the players in real-world games. Furthermore, our model can also discover basketball events that contribute positively and negatively to a player's performance.

연구 동기 및 목표

실생활의 자연스럽고 시나리오가 없는 경기에서 성과 평가의 주관성과 평가자별 특수성 문제를 해결하기 위해.
1인칭 영상 자료를 활용해 선수의 경기 내 행동과 결정을 반영하는 공간-시간적 시각적 의미를 추출하기 위해.
농구 전문가가 레이블을 부여한 영상 쌍을 기반으로 개인화된 성과 평가 모델을 학습하기 위해.
특정 농구 이벤트가 전체 성과 점수에 긍정적 또는 부정적으로 기여하는지 식별하기 위해.

제안 방법

1인칭 영상 프레임에서 원자적 농구 이벤트(예: 드리블, 슛팅, 패assing)를 탐지하기 위해 컨volutional LSTM 네트워크를 사용한다.
공간적 어텐션 메커니즘을 적용하여 주목할 만한 영역에 집중함으로써, 1인칭 영상에서 발생하는 머리 움직임으로 인한 왜곡을 완화한다.
탐지된 이벤트의 시간적 동역학을 가우시안 믹스처 모델을 사용해 모델링하여 비선형적이고 고차원적인 시각적 공간-시간 특징을 생성한다.
전문가가 어느 선수가 더 나은지 표시한 1인칭 영상 쌍을 사용하여 성과 평가 모델을 훈련한다.
명시적인 기준 없이도 평가자의 기준과 일치하는 선호도 인식 표현을 학습한다.
훈련된 모델을 활용해 성과 점수를 추론하고, 전체 평가에 기여하는 이벤트 수준의 기여도를 해석 가능하게 한다.

실험 결과

연구 질문

RQ1딥 러닝 모델이 평가자의 구체적인 기준을 알지 못한 채, 단지 1인칭 영상과 전문가가 레이블을 부여한 비교 정보만을 사용하여 농구 성과를 정확히 평가할 수 있는가?
RQ2모델은 자연스럽고 시나리오가 없는 1인칭 플레이에서 의미 있는 농구 이벤트를 얼마나 잘 탐지하고 국소화할 수 있는가?
RQ3모델이 특정 경기 행동이 선수의 성과 점수에 긍정적 또는 부정적으로 기여하는 정도를 어느 정도 정확하게 식별할 수 있는가?
RQ4모델은 다양한 카메라 움직임과 복잡한 시각적 환경을 가진 실생활 농구 경기로 일반화될 수 있는가?

주요 결과

모델은 평가자의 선호도 기준을 명시적으로 알지 못한 상태에서도, 쌍으로 제공된 1인칭 영상에서 어느 선수가 더 나은지 높은 정확도로 예측할 수 있다.
중대한 카메라 움직임이 존재하는 상황에서도 모델은 1인칭 영상에서 원자적 농구 이벤트를 성공적으로 탐지하고 국소화할 수 있다.
가우시안 믹스처 모델 기반의 특징 인코딩이 성과 평가에 관련된 복잡한 비선형 공간-시간 패턴을 효과적으로 포착한다.
모델은 실수한 슛팅이나 부적절한 패assing과 같은 특정 이벤트를 식별하여 선수 점수에 악영향을 주는 요소를 제공함으로써 해석 가능한 피드백을 제공한다.
모델는 시각적 노이즈와 동적인 카메라 움직임에 강건함을 보이며, 실생활의 자연스러운 경기로 잘 일반화된다.
성과 평가 모델은 오직 영상 쌍 비교를 통한 약한 지도 신호만으로도 전문가의 판단과 일치하는 방향으로 학습된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.