QUICK REVIEW

[論文レビュー] Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance

David Freire-Obregón, Javier Lorenzo-Navarro|arXiv (Cornell University)|Mar 13, 2022

Human Pose and Action Recognition参考文献 38被引用数 7

ひとこと要約

本論文では、レースのチェックポイントで撮影された動画クリップから、RGBおよびオプティカルフロー入力から抽出された運動特徴を用いて、文脈情報を含まないI3D ConvNetアプローチを提案し、ウルトラランナーのパフォーマンスを推定する。この手法は、現在のRPパフォーマンスを分類する際、最大83.7％の正確さを達成し、次のRPパフォーマンスを予測する際には77.1％の正確さを示しており、文脈情報は役立つが、ウルトラランニングの状況において信頼性の高いパフォーマンス推定には必ずしも不可欠ではないことを示している。

ABSTRACT

In May 2021, the site runnersworld.com published that participation in ultra-distance races has increased by 1,676% in the last 23 years. Moreover, nearly 41% of those runners participate in more than one race per year. The development of wearable devices has undoubtedly contributed to motivating participants by providing performance measures in real-time. However, we believe there is room for improvement, particularly from the organizers point of view. This work aims to determine how the runners performance can be quantified and predicted by considering a non-invasive technique focusing on the ultra-running scenario. In this sense, participants are captured when they pass through a set of locations placed along the race track. Each footage is considered an input to an I3D ConvNet to extract the participant's running gait in our work. Furthermore, weather and illumination capture conditions or occlusions may affect these footages due to the race staff and other runners. To address this challenging task, we have tracked and codified the participant's running gait at some RPs and removed the context intending to ensure a runner-of-interest proper evaluation. The evaluation suggests that the features extracted by an I3D ConvNet provide enough information to estimate the participant's performance along the different race tracks.

研究の動機と目的

レースのチェックポイントにおけるウルトラランナーのパフォーマンスを、非侵襲的かつ動画ベースで評価する手法を開発すること。
文脈的な視覚的情報（例：環境、他のランナー）が、正確なパフォーマンス推定に不可欠であるかどうかを評価すること。
現在のチェックポイントでの動画入力のみを用いて、次のチェックポイントのパフォーマンスを予測できるかどうかを特定すること。
現実世界のウルトラランニングの状況において、文脈の除去とモデル性能のトレードオフを調査すること。
レース主催者および医療スタッフ向けに、解釈可能でリアルタイムのパフォーマンスフィードバックを提供すること。

提案手法

レースのチェックポイントでのランナーの短い動画クリップから、空間的・時間的特徴を抽出するために、事前学習済みのI3D ConvNetをRGBおよびオプティカルフローの2つのストリームで使用する。
バウンディングボックス（BB）またはポーズ推定（VIBE）を用いてランナーを分離することで、文脈の除去（デコンテキストアライゼーション）を実施し、環境的要因や遮蔽の影響を排除する。
各RPにおけるスプリットタイムに基づいてパフォーマンスを離散クラス（例：優秀、非常に良い）に分類する品質評価指標を採用する。
I3D埋め込み特徴を用いて、XGBoost分類器を訓練し、現在および次のRPのパフォーマンスクラスを予測する。
Kinetics-400での事前学習を経て、214名のウルトラランナーが参加した複数のRPを含むカスタムデータセットで微調整を行うことで、トランスファー学習を実施する。
文脈の除去が性能に与える影響を評価するために、生動画、BB、VIBE入力の比較を含むアブレーションスタディを実施する。

実験結果

リサーチクエスチョン

RQ1文脈的ヒントが一切ない状態で、運動特徴のみを用いてランナーのパフォーマンスを正確に推定できるか？
RQ2バウンディングボックスによる文脈の除去によって、事前学習済みI3D ConvNetのパフォーマンス推定の正確さにどの程度の影響が生じるか？
RQ3現在のチェックポイントでの動画入力のみを用いて、次のチェックポイントのパフォーマンスをどの程度まで予測できるか？
RQ4異なるパフォーマンス分類レベルが、モデルの正確さとスケーラビリティに与える影響はどの程度か？
RQ5文脈情報が欠如した状況下で、RGBとオプティカルフローの2つのストリームの相対的寄与度はどの程度か？

主な発見

生動画入力を使用した場合、I3D ConvNetは現在のRPパフォーマンスを分類する際、83.7％の正確さを達成しており、現実世界のウルトラランニング環境において優れた性能を示している。
バウンディングボックス（BB）による文脈の除去により、生動画入力と比較して3〜5％の正確さの低下が生じたが、これは文脈情報が依然としてモデル性能に寄与していることを示している。
BBとVIBE入力の間での正確さの低下は1〜2％にとどまり、モデルがシーンのごみや複数人のランナーがいる状況に対しても頑健であることを示している。
XGBoostは他の分類器を上回り、最高の正確さを達成しており、これは弱学習器を段階的に改善する順次ブースティング機構のおかげだと考えられる。
I3D ConvNetはC3Dおよび3D ResNetをそれぞれ10〜15％、2〜5％上回り、本タスクにおいて優れた性能を示している。
現在のRP動画入力のみを用いて、次のRPパフォーマンスを77.1％の正確さで予測できたため、リアルタイムのリスクモニタリングへの応用が有望である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。