QUICK REVIEW

[論文レビュー] Multiple-Kernel Based Vehicle Tracking Using 3D Deformable Model and Camera Self-Calibration

Zheng Tang, Gaoang Wang|arXiv (Cornell University)|Aug 22, 2017

Video Surveillance and Tracking Methods参考文献 17被引用数 23

ひとこと要約

本論文は、都市部の交通監視における遮蔽問題に対処するために、3次元可変形状モデルと自己自己校正カメラを用いた複数カーネルベースの車両追跡システムを提案する。歩行者の移動軌跡から得られる自己自己校正カメラパラメータを活用し、形状適合性、色、適応的カーネルフィードバックを統合することで、最先端の検出およびセグメンテーションベース手法よりも優れた性能を達成した。AI City Challengeデータセット上で、マルチオブジェクト追跡の強靭性が向上した。

ABSTRACT

Tracking of multiple objects is an important application in AI City geared towards solving salient problems related to safety and congestion in an urban environment. Frequent occlusion in traffic surveillance has been a major problem in this research field. In this challenge, we propose a model-based vehicle localization method, which builds a kernel at each patch of the 3D deformable vehicle model and associates them with constraints in 3D space. The proposed method utilizes shape fitness evaluation besides color information to track vehicle objects robustly and efficiently. To build 3D car models in a fully unsupervised manner, we also implement evolutionary camera self-calibration from tracking of walking humans to automatically compute camera parameters. Additionally, the segmented foreground masks which are crucial to 3D modeling and camera self-calibration are adaptively refined by multiple-kernel feedback from tracking. For object detection/classification, the state-of-the-art single shot multibox detector (SSD) is adopted to train and test on the NVIDIA AI City Dataset. To improve the accuracy on categories with only few objects, like bus, bicycle and motorcycle, we also employ the pretrained model from YOLO9000 with multi-scale testing. We combine the results from SSD and YOLO9000 based on ensemble learning. Experiments show that our proposed tracking system outperforms both state-of-the-art of tracking by segmentation and tracking by detection.

研究の動機と目的

都市部交通監視における頻発する遮蔽問題を解決すること。
追跡された歩行者の動きから得られる進化的カメラ自己自己校正を用いて、完全に自己教師付きで3次元車両モデルを構築すること。
3次元可変形状モデルフレームワーク内で形状適合性と色情報の統合により、追跡の強靭性を向上させること。
追跡プロセスからの複数カーネルフィードバックを用いて、前景マスクを適応的に精錬することで、3次元モデリングと自己自己校正の精度を向上させること。
アンサンブル学習によるSSDとYOLO9000の検出結果の統合により、バスやオートバイなどレアクラスの検出性能を向上させること。

提案手法

表面の各パッチにカーネルを設けた3次元可変形状車両モデルを構築することで、局所的特徴マッチングと形状ベースの制約を可能にする。
遮蔽や外観変化に強い追跡性能を向上させるために、形状適合性評価と色特徴を併用する。
シーン内を移動する歩行者の軌跡に進化的最適化を適用することで、カメラパラメータを自己自己校正する。
追跡プロセスからの複数カーネルフィードバックを用いて、前景マスクを適応的に精錬することで、3次元モデル品質と自己自己校正精度を向上させる。
SSDとYOLO9000の検出結果をマルチスケールテストとアンサンブル学習で統合し、バスやオートバイなどのレアクラスの検出精度を向上させる。
3次元モデルの制約、カーネルフィードバック、自己自己校正済みカメラ幾何学を統合し、追跡と再構築を共同最適化する。

実験結果

リサーチクエスチョン

RQ1パッチ単位のカーネルを備えた3次元可変形状モデルは、2次元または剛体モデルと比較して、遮蔽下でも追跡の強靭性を向上させることができるか？
RQ2監視環境下で、歩行者の軌跡のみを用いてカメラパラメータを自己自己校正する方法は、どの程度効果的か？
RQ3複雑な都市部シーンにおいて、形状適合性と色情報の統合が、追跡精度をどの程度向上させるか？
RQ4追跡からの適応的カーネルフィードバックは、3次元モデリングと自己自己校正における前景マスク品質を向上させることができるか？
RQ5SSDとYOLO9000のアンサンブル学習は、レアな車両カテゴリ（バスやオートバイなど）の検出および追跡性能を顕著に向上させるか？

主な発見

提案された追跡システムは、2017年IEEE Smart World NVIDIA AI City Challenge Track 2: Applicationsで最高の性能を達成した。
形状適合性と色特徴の統合により、部分的遮蔽時においても追跡の強靭性が顕著に向上した。
歩行者の動きから得た自己自己校正により、事前校正データがなくても正確なカメラパラメータ推定が可能となった。
適応的カーネルフィードバックにより前景マスク品質が向上し、より正確な3次元モデル構築と自己自己校正が実現した。
SSDとYOLO9000のアンサンブル検出により、バスやオートバイなどの低頻度車両クラスの認識が向上した。
ベンチマークデータセット上で、最先端の検出ベースおよびセグメンテーションベースの追跡手法を上回る性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。