[논문 리뷰] Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance
이 논문은 레이스 체크포인트에서 촬영한 영상 클립에서 RGB 및 옵티컬 플로우 입력으로부터 추출한 운동 특징을 사용하여, 맥락 없는 I3D ConvNet 방법을 제안하여 초장거리 달리기 선수의 성능을 추정한다. 이 방법은 현재 RP 성능을 분류하는 데 최대 83.7%의 정확도를 달성하고, 다음 RP 성능을 예측하는 데 77.1%의 정확도를 기록하며, 맥락 정보가 비록 유용하지만 초장거리 뛰기 상황에서 신뢰할 수 있는 성능 추정을 위해 필수적인 것은 아님을 보여준다.
In May 2021, the site runnersworld.com published that participation in ultra-distance races has increased by 1,676% in the last 23 years. Moreover, nearly 41% of those runners participate in more than one race per year. The development of wearable devices has undoubtedly contributed to motivating participants by providing performance measures in real-time. However, we believe there is room for improvement, particularly from the organizers point of view. This work aims to determine how the runners performance can be quantified and predicted by considering a non-invasive technique focusing on the ultra-running scenario. In this sense, participants are captured when they pass through a set of locations placed along the race track. Each footage is considered an input to an I3D ConvNet to extract the participant's running gait in our work. Furthermore, weather and illumination capture conditions or occlusions may affect these footages due to the race staff and other runners. To address this challenging task, we have tracked and codified the participant's running gait at some RPs and removed the context intending to ensure a runner-of-interest proper evaluation. The evaluation suggests that the features extracted by an I3D ConvNet provide enough information to estimate the participant's performance along the different race tracks.
연구 동기 및 목표
- 레이스 체크포인트에서의 초장거리 달리기 선수 성능을 평가하기 위한 비침습적 영상 기반 방법을 개발한다.
- 환경, 다른 달리기 선수 등 맥락적 시각 정보가 정확한 성능 추정에 필수적인지 평가한다.
- 현재 체크포인트 영상 입력만으로도 다음 체크포인트 성능을 예측할 수 있는지 확인한다.
- 실제 초장거리 뛰기 상황에서 맥락 제거와 모델 성능 간의 상충 관계를 조사한다.
- 레이스 조직자 및 의료 인력에게 해석 가능하고 실시간 성능 피드백을 제공한다.
제안 방법
- 레이스 체크포인트에서 달리기 선수의 짧은 영상 클립에서 스페이오타임 특징을 추출하기 위해 RGB 및 옵티컬 플로우 스트림을 사용하는 사전 훈련된 I3D ConvNet을 사용한다.
- 경계 상자(BB) 또는 포즈 추정(VIBE)을 통해 러너를 고립시켜 환경적 요소 및 가림 현상과 같은 혼란을 제거함으로써 맥락 제거를 수행한다.
- 각 RP에서의 스플릿 타임을 기반으로 성능을 이산 클래스(예: 뛰어남, 매우 좋음)로 분류하는 품질 평가 지표를 적용한다.
- I3D 임bedded 특징을 기반으로 분류기(XGBoost)를 훈련시켜 현재 및 다음 RP의 성능 카테고리를 예측한다.
- Kinetics-400 사전 훈련을 사용한 전이 학습을 수행한 후, 여러 RPs에 걸쳐 214명의 초장거리 달리기 선수로 구성된 자체 데이터셋으로 미세 조정한다.
- 원본 영상, BB, VIBE 입력을 비교하는 추론 실험을 수행하여 맥락 제거가 성능에 미치는 영향을 평가한다.
실험 결과
연구 질문
- RQ1맥락적 신호 없이 운동 특징만으로도 러너의 성능을 정확하게 추정할 수 있는가?
- RQ2경계 상자(BB)를 통한 환경 맥락 제거가 사전 훈련된 I3D ConvNet의 성능 추정 정확도에 얼마나 영향을 미치는가?
- RQ3현재 체크포인트 영상 입력만으로도 모델이 다음 체크포인트 성능을 얼마나 잘 예측할 수 있는가?
- RQ4다양한 성능 분류 수준이 모델의 정확도 및 확장성에 미치는 영향은 어떠한가?
- RQ5맥락 정보가 없는 조건에서 RGB 및 옵티컬 플로우 스트림의 상대적 기여도는 어떠한가?
주요 결과
- 원본 영상 입력을 사용할 경우 I3D ConvNet은 현재 RP 성능을 분류하는 데 83.7%의 정확도를 달성하여 실생활 초장거리 뛰기 환경에서 뛰어난 성능을 보였다.
- 경계 상자(BB)를 통한 맥락 제거는 원본 영상 입력 대비 3~5%의 정확도 하락을 초래하며, 맥락 정보가 여전히 모델 성능에 기여함을 시사한다.
- BB와 VIBE 입력 간의 정확도 하락은 오직 1~2%에 불과하여, 모델이 장면의 혼잡함과 다수의 러너 존재에 대해 강건함을 보임을 시사한다.
- XGBoost는 다른 분류기보다 뛰어난 성능을 보이며, 약화된 학습기들을 개선하는 순차적 부스팅 메커니즘 덕분일 것으로 보인다.
- I3D ConvNet은 C3D 및 3D ResNet보다 각각 10~15%, 2~5% 높은 성능을 기록하여 이 작업에서의 우월성을 입증한다.
- 현재 RP 영상 입력만으로도 모델은 다음 RP 성능을 예측하는 데 77.1%의 정확도를 달성하여 실시간 위험 모니터링 잠재력을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.