Skip to main content
QUICK REVIEW

[論文レビュー] CityPersons: A Diverse Dataset for Pedestrian Detection

Shanshan Zhang, Rodrigo Benenson|arXiv (Cornell University)|Feb 19, 2017
Video Surveillance and Tracking Methods参考文献 28被引用数 68
ひとこと要約

CityPersonsは高品質なCityscapesベースの歩行者注釈を追加し、単一CNNが複数のベンチマークに一般化できるようにし、FasterRCNNの性能を改善、特に小型および遮蔽された歩行者に対して、セマンティックラベルが初期の改善を示す。

ABSTRACT

Convnets have enabled significant progress in pedestrian detection recently, but there are still open questions regarding suitable architectures and training data. We revisit CNN design and point out key adaptations, enabling plain FasterRCNN to obtain state-of-the-art results on the Caltech dataset. To achieve further improvement from more and better data, we introduce CityPersons, a new set of person annotations on top of the Cityscapes dataset. The diversity of CityPersons allows us for the first time to train one single CNN model that generalizes well over multiple benchmarks. Moreover, with additional training with CityPersons, we obtain top results using FasterRCNN on Caltech, improving especially for more difficult cases (heavy occlusion and small scale) and providing higher localization quality.

研究の動機と目的

  • Cityscapes上の歩行者の高品質な境界ボックス注釈としてCityPersonsを紹介する。
  • 適切に適応させた FasterRCNN が最先端成果を達成し、CityPersonsの事前学習から恩恵を受けることを示す。
  • Caltech、KITTI、CityPersonsのベンチマーク間でのデータセット横断一般化の改善を実証する。
  • Cityscapesのセマンティックラベルを活用して検出を改善する可能性を探る。特に小型の歩行者に対して。

提案手法

  • 歩行者検知のために、ターゲットを絞ったアーキテクチャ的・学習上の調整を用いてFasterRCNNを適応させる。
  • Caltechで小さなスケールおよび遮蔽された歩行者の扱いを改善する6つの拡張(M1–M5)を開発する。
  • CityPersonsを作成するには、Cityscapesの5,000枚の高精度注釈画像に対して歩行者のアモダル・整列境界ボックスを追加し、 ignore領域を注釈付けする。
  • 高い遮蔽を伴う多様な都市・季節データを提供し、一般化を改善する。
  • CityPersonsとCaltechでACF、Checkerboards、FasterRCNNを比較するベースライン実験を実施し、データ量の影響を分析する。
  • CityPersons、Caltech、または KITTI で訓練し6つのベンチマークで評価することで、データセット横断一般化を評価し、事前学習の利点を分析する。

実験結果

リサーチクエスチョン

  • RQ1CityPersonsは Caltech や KITTI のみよりも複数データセットにまたがる検出モデルの一般化を改善できるか?
  • RQ2CityPersonsでの事前学習はCaltechやKITTIなどの他のベンチマークでの性能を改善するか(特に難しいケースで)?
  • RQ3CityPersonsのセマンティックラベルが歩行者検出に与える影響は何か(特に小スケールの歩行者に対して)?
  • RQ4CityPersonsは検出の局在化と整列をベンチマーク間でどの程度改善するのか?

主な発見

  • CityPersonsは、CaltechやKITTIのみで訓練したモデルと比べて、1つのCNNが6つのベンチマーク全体でより良く一般化できるようにする。
  • Cross-dataset pre-training with CityPersons improves Caltech results, notably for small scale and heavily occluded pedestrians, and yields better localization (IoU=0.75) gains.
  • CityPersons pre-training provides measurable gains on KITTI, with larger improvements for smaller scale detections.
  • Using CityPersons data, pre-training improves overall performance on Caltech by about 1 percentage point (MR^O) and up to ~8.6 percentage points for heavy occlusion in MR^O, with larger improvements at higher IoU thresholds (MR^N, IoU 0.75: +4.8).
  • When using semantic channels derived from Cityscapes, small-person detections benefit the most, though overall gains are modest (~0.6 MR in the reasonable subset).
  • Baseline FasterRCNN on CityPersons shows the dataset is more challenging than Caltech, yet FasterRCNN remains the strongest baseline among tested detectors.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。