QUICK REVIEW

[論文レビュー] Multi-Person Tracking By Multi-Scale Detection in Basketball Scenarios

Adrià Arbués-Sangüesa|arXiv (Cornell University)|Jul 10, 2019

Video Surveillance and Tracking Methods参考文献 20被引用数 2

ひとこと要約

本論文では、全HDフレーム上で粗くから細かくまでのアプローチとスライディングウィンドウ検出を組み合わせ、ポーズに基づく幾何学的およびコンテンツ特徴を用いて、単一カメラ映像におけるバスケットボール選手のマルチスケール検出・トラッキングシステムを提示する。新しく収集した10,000個を超えるバウンディングボックスを含むデータセットで、0.67のMOTAと高いF1スコアを達成し、遮蔽や運動ブラーに強く対応した堅牢な性能を示している。

ABSTRACT

Tracking data is a powerful tool for basketball teams in order to extract advanced semantic information and statistics that might lead to a performance boost. However, multi-person tracking is a challenging task to solve in single-camera video sequences, given the frequent occlusions and cluttering that occur in a restricted scenario. In this paper, a novel multi-scale detection method is presented, which is later used to extract geometric and content features, resulting in a multi-person video tracking system. Having built a dataset from scratch together with its ground truth (more than 10k bounding boxes), standard metrics are evaluated, obtaining notable results both in terms of detection (F1-score) and tracking (MOTA). The presented system could be used as a source of data gathering in order to extract useful statistics and semantic analyses a posteriori.

研究の動機と目的

遮蔽や高速運動によって性能が低下する単一カメラバスケットボール映像におけるマルチペルソントラッキングの課題に対処すること。
低消費電力デバイスに適した軽量で埋め込みフレンドリーなトラッキングシステムを開発すること。
マルチスケール検出とポーズ推定を用いて、ごみや制限されたコート環境における検出・トラッキングの正確性を向上させること。
バスケットボールトラッキング評価のための、10,000個を超えるバウンディングボックスを含む新規の大規模なアノテーションデータセットを構築すること。
標準的な指標を用いて、マルチスケール検出と特徴統合のトラッキングパフォーマンスへの影響を評価すること。

提案手法

複数スケールでの選手検出を向上させるために、粗くから細かくまでの検出戦略が適用され、部分的遮蔽やぼやけた個体の検出が改善される。
特に小さな対象や高速移動対象の検出感度を高めるために、フルHDフレーム上でスライディングウィンドウ技術が用いられる。
線分抽出と投票を用いてコート境界を検出することで、領域の注目（ROI）を定義し、観客やコート外の要素による誤検出を低減する。
各検出に対してポーズモデルを適用し、キーポoinに基づく特徴を抽出することで、フレーム間のトラッキングの一貫性が向上する。
幾何学的およびコンテンツ特徴（ポーズ類似度とIoUを含む）を組み合わせたマッチング手順を採用し、2フレームのメモリ耐性を設けることで、トラックの安定化を図る。
空間的、時間的、外観的特徴を組み合わせたグローバル最適化フレームワークを用いて、フレーム間の検出をマッチングさせ、誤検出と見逃しを最小限に抑える。

実験結果

リサーチクエスチョン

RQ1頻繁な遮蔽が生じる単一カメラバスケットボール映像において、マルチスケール検出戦略が人物検出の正確性を向上させることができるか？
RQ2粗くから細かくまでの検出とスライディングウィンドウ検出を組み合わせることで、低照度または運動ブラーの状況下での検出の再現率と適合率にどのような影響を与えるか？
RQ3外観のみまたはバウンディングボックスのみのマッチングと比較して、ポーズに基づく特徴がトラッキングの堅牢性をどの程度向上させるか？
RQ4新しく収集したデータセット上で、提案手法が最先端のトラッキングシステムと比較してMOTAおよびF1スコアの観点でどのように性能を発揮するか？
RQ5ポーズモデルからの文脈的特徴を用いることで、高遮蔽状況下でのトラッキング誤りが減少するか？

主な発見

提案されたマルチスケール検出法は、再現率が低いにもかかわらず、顕著に高い適合率と誤検出の低減により、YOLOベースの検出を上回るF1スコアを達成した。
粗くから細かくまでの検出とスライディングウィンドウ検出の組み合わせにより、個別の手法と比較して検出再現率が5%向上し、誤検出が減少した。
トラッキングマッチングプロセスに2フレームのメモリを組み込むことで、MOTAが5%向上し、時間的整合性の利点が明確になった。
新規データセット上でMOTAが0.67に達したため、遮蔽や高速運動に強く対応した堅牢なパフォーマンスを示している。
フルHDスキャンを用いることで、より正確なバウンディングボックスのアライメントが可能となり、MOTPが向上し、トラッキングパフォーマンスがさらに向上した。
最先端のJoint Tracking + Segmentation手法で高価なコンピューティングを要するのに対比べ、本手法はCPUのみで動作させてもMOTAでその性能を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。