[論文レビュー] Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and Beyond
PS-GAN は二つの識別子と Spatial Pyramid Pooling を用いて、実景の中に現実感のある歩行者を合成し、データ拡張としてCNNベースの歩行者検出器の性能を向上させるラベル付きデータを生成します。データセットを越えて一般化します。
State-of-the-art pedestrian detection models have achieved great success in many benchmarks. However, these models require lots of annotation information and the labeling process usually takes much time and efforts. In this paper, we propose a method to generate labeled pedestrian data and adapt them to support the training of pedestrian detectors. The proposed framework is built on the Generative Adversarial Network (GAN) with multiple discriminators, trying to synthesize realistic pedestrians and learn the background context simultaneously. To handle the pedestrians of different sizes, we adopt the Spatial Pyramid Pooling (SPP) layer in the discriminator. We conduct experiments on two benchmarks. The results show that our framework can smoothly synthesize pedestrians on background images of variations and different levels of details. To quantitatively evaluate our approach, we add the generated samples into training data of the baseline pedestrian detectors and show the synthetic images are able to improve the detectors' performance.
研究の動機と目的
- 広範なアノテーション作業を要さず、ラベル付き歩行者データのニーズに対応する。
- 背景シーン内に現実的な歩行者を合成するGANベースのフレームワークを開発する。
- 検出器を訓練するための合成歩行者に対して真の境界ボックスを提供する。
- さまざまなスケールと文脈で生成された歩行者が背景と自然に馴染むようにする。
- Cityscapes でのデータ拡張効果と、データセット間転移(Cityscapes から Tsinghua-Daimler)を実証する。
提案手法
- 二つの識別子を持つ Pedestrian-Synthesis-GAN(PS-GAN)を提案する。Db は背景コンテキストを学習し、Dp は歩行者の現実性を検証する。
- 画像内のノイズボックスに歩行者が現れる場所を埋めるためにU-Net生成器を使用する。
- 生成画像から合成歩行者を切り抜き、Dp に Spatial Pyramid Pooling を適用して可変サイズの歩行者に対応する。
- Db には LSGAN 損失、Dp には標準GAN損失、λ=100 の L1 再構成損失を組み合わせて訓練する。
- 固定された境界ボックス内の合成を監督するために Pix2Pix スタイルのペア訓練設定を採用する。
- Cityscapes で合成データを用いて Faster R-CNN 検出器を評価し、Tsinghua-Daimler でのクロスデータセットテストを行う。
実験結果
リサーチクエスチョン
- RQ1PS-GAN は現実の背景と滑らかに統合される写真のように現実的な歩行者を生成できるか?
- RQ2PS-GAN 合成歩行者を用いて実データ訓練を拡張すると検出器の性能は向上するか?
- RQ3追加のアノテーションなしで PS-GAN は新しいデータセットへどのように一般化するか?
- RQ4建築的選択(Dp の SPP、二重識別子、損失タイプ) が合成品質にどのような影響を与えるか?
- RQ5データ分布を崩さず検出を向上させる最適な合成データの量は存在するか?
主な発見
| データ | Pix2Pix GAN | PS-GAN |
|---|---|---|
| 1826 real images (7729 labels) | 60.11% | |
| + 3000 synthetic pedestrians | 59.95% | 61.02% |
| + 5000 synthetic pedestrians | 60.23% | 61.79% |
| + 8000 synthetic pedestrians | 58.41% | 61.59% |
| Pascal VOC 2007 | 34.13% | |
| Pascal VOC 2007 & 2012 | 36.85% |
- PS-GAN は背景により良く馴染む、シャープで写真のようにリアルな歩行者を生成する。Pix2Pix のベースラインより優れている。
- トレーニングに PS-GAN 合成歩行者を組み込むと、Cityscapes テストで Faster R-CNN の AP が一貫して改善される。
- データセットを跨ぐ実験では、Cityscapes 由来の PS-GAN 生成データが追加のアノテーションなしで Tsinghua-Daimler Cyclist Benchmark の検出を改善する。
- Dp の SPP と Db の LSGAN 損失を組み合わせると、他の構成より背景忠実度と歩行者ディテールが向上する。
- Pix2Pix からの過剰な合成歩行者は性能を低下させる可能性がある一方、PS-GAN は合成拡張で AP を維持または改善する。
- 実験を通じて、PS-GAN 生成データは検出器性能の向上において Pix2Pix より上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。