QUICK REVIEW

[論文レビュー] Virtual Worlds as Proxy for Multi-Object Tracking Analysis

Adrien Gaidon, Qiao Wang|arXiv (Cornell University)|May 20, 2016

Video Surveillance and Tracking Methods参考文献 32被引用数 297

ひとこと要約

この論文は Virtual KITTI を紹介します。real KITTI sequences からクローンしたフォトリアリスティックな合成データセットで、マルチオブジェクト追跡のリアル対仮想の移行性を研究し、 varied conditions でのトレーニングと評価のための仮想データの利点を検討します。

ABSTRACT

Modern computer vision algorithms typically require expensive data acquisition and accurate manual labeling. In this work, we instead leverage the recent progress in computer graphics to generate fully labeled, dynamic, and photo-realistic proxy virtual worlds. We propose an efficient real-to-virtual world cloning method, and validate our approach by building and publicly releasing a new video dataset, called Virtual KITTI (see http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds), automatically labeled with accurate ground truth for object detection, tracking, scene and instance segmentation, depth, and optical flow. We provide quantitative experimental evidence suggesting that (i) modern deep learning algorithms pre-trained on real data behave similarly in real and virtual worlds, and (ii) pre-training on virtual data improves performance. As the gap between real and virtual worlds is small, virtual worlds enable measuring the impact of various weather and imaging conditions on recognition performance, all other things being equal. We show these factors may affect drastically otherwise high-performing deep models for tracking.

研究の動機と目的

大規模で多様で自動ラベリングされた動画データセットを MOT 及び関連タスクのために実現可能にするため、フォトリアリスティックな合成データの利用を動機付ける。
実 KITTI シーケンスの小さなシードセットから仮想世界を作成するクローンベースのパイプラインを提案する。
現実世界から仮想世界への観測の転送性を定量化し、MOT における仮想前訓練の価値を示す。
MOT の認識性能に対する天候、照明、視点の影響を制御された研究を可能にする。
検出、追跡、深度、セグメンテーション、光学フローの自動 Ground Truth を含む Virtual KITTI データセットを公開する。

提案手法

Unity ベースのパイプラインを用いて、シードとなる実世界の KITTI シーケンスをフォトリアリスティックな仮想世界にクローンする。
GPU シェーダとレンダリングパスを用いて、密な Ground-Truth アノテーション（2D/3D ボックス、深度、セグメンテーション、光学フロー）を自動生成する。
スクリプト駆動の変更（照明、霧、雨、カメラ姿勢）により、天候や撮像条件を変えた合成動画を作成する。
現実とクローンした仮想動画を、事前訓練済み検出器と最適化された追跡ハイパーパラメータ（ベイズ最適化）を用いて比較し、転送性を評価する。
Virtual KITTI のクローンで訓練し、実KITTI でファインチューンすることで MOT の性能向上を測定する、仮想前訓練を評価する。

実験結果

リサーチクエスチョン

RQ1現実 KITTI データからそれらの仮想クローンへの認識性能の転送度はどの程度か？
RQ2仮想データの事前訓練は、実データのみで訓練する場合と比べて現実世界の MOT 性能を向上させられるか？
RQ3仮想世界の天候、照明、カメラ視点のバリエーションは、晴天の現実世界データで訓練した場合、MOT 性能にどのように影響するか？
RQ4仮想世界は、様々な条件下での MOT システムの頑健性を系統的かつ一定条件で研究するための拡張可能で制御可能な手段を提供するか？

主な発見

現実から仮想への転送は、MOT 指標で平均的にはほぼ損失なし（MOTA ギャップ < 0.5%、両方のトラッカーで）。
仮想前訓練（仮想データに続いて実データでファインチューン）は MOT 性能を向上させ、特に DP-MCF トラッカーで顕著。
天候と撮像の変化（霧、雨、夜間に近い条件）は、理想的な晴天の実データで訓練した場合に MOT 性能を大きく低下させ、霧が最も強い低下を引き起こす。
Virtual KITTI の Ground-truth は一貫して生成され、主観性を減らし、タスク全体で密なピクセルレベルのラベルを可能にする。
仮想 KITTI はカメラ角度やライティングなどの要因を、実データではコストがかかる場合でも、系統的かつ一定条件で分析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。