QUICK REVIEW

[論文レビュー] Anchor-free Small-scale Multispectral Pedestrian Detection

Alexander Wolpert, Michael Teutsch|arXiv (Cornell University)|Aug 19, 2020

Video Surveillance and Tracking Methods被引用数 24

ひとこと要約

本論文は、アンカーなし、1段階型の物体検出フレームワークを提案し、可視光および赤外熱画像のマルチスペクトル小規模な歩行者検出に適用する。アンカーボックスの代わりに、物体の中心とスケールの予測を活用する。KAISTベンチマークでは5.68%のログ平均ミスレートを達成し、先行研究の最良成績（7.49%）比で25%の改善を達成した。マルチスペクトル特徴統合とデータ拡張技術の向上がその要因である。

ABSTRACT

Multispectral images consisting of aligned visual-optical (VIS) and thermal infrared (IR) image pairs are well-suited for practical applications like autonomous driving or visual surveillance. Such data can be used to increase the performance of pedestrian detection especially for weakly illuminated, small-scaled, or partially occluded instances. The current state-of-the-art is based on variants of Faster R-CNN and thus passes through two stages: a proposal generator network with handcrafted anchor boxes for object localization and a classification network for verifying the object category. In this paper we propose a method for effective and efficient multispectral fusion of the two modalities in an adapted single-stage anchor-free base architecture. We aim at learning pedestrian representations based on object center and scale rather than direct bounding box predictions. In this way, we can both simplify the network architecture and achieve higher detection performance, especially for pedestrians under occlusion or at low object resolution. In addition, we provide a study on well-suited multispectral data augmentation techniques that improve the commonly used augmentations. The results show our method's effectiveness in detecting small-scaled pedestrians. We achieve 5.68% log-average miss rate in comparison to the best current state-of-the-art of 7.49% (25% improvement) on the challenging KAIST Multispectral Pedestrian Detection Benchmark. Code: https://github.com/HensoldtOptronicsCV/MultispectralPedestrianDetection

研究の動機と目的

実世界の監視や自動運転のシナリオにおいて、小規模、部分的遮蔽、低解像度の歩行者を検出する課題に対処すること。
2段階型、アンカー基準の検出器（例：Faster R-CNN）がマルチスペクトル環境で抱える限界（計算コストが高く、微小な歩行者に対しては効果が低い）を克服すること。
物体の中心とスケールを直接回帰する簡素化された1段階型アーキテクチャを開発し、微小スケールのインスタンスにおける効率性と性能を向上させること。
マルチスペクトルデータ拡張戦略を調査・最適化し、モデルの汎化性能と耐障害性を向上させること。
特に困難な小規模および遮蔽付きケースにおいて、KAISTマルチスペクトル歩行者検出ベンチマークで最先端の性能を達成すること。

提案手法

キーポointのような中心ヒートマップとスケールに敏感な回帰ヘッドを用いて、物体の中心とスケールを予測する1段階型アンカーなし物体検出バックボーン（例：CenterNet や FCOS スタイル）を適応する。
可視光（VIS）と赤外熱画像（IR）モダリティの特徴を、学習可能なクロスモダリティアテンションまたは残差接続付き要素ごとの連結を用いて、早期かつ対称的に統合する。
従来のアンカーボックス生成と領域提案ネットワークの代わりに、物体の中心座標とスケールを直接回帰することで、アーキテクチャの複雑さを低減する。
空間的、強度的、モダリティ固有の拡張（例：ランダムマスキング、VISのカラージャッタリング、IRへのノイズ注入）を組み合わせた、新しいマルチスペクトルデータ拡張パイプラインを導入する。
クラス不均衡、特に希少な小規模歩行者に対して強い影響を与えるため、ファーコーストスコアベースの分類ヘッドを用いてモデルを訓練する。
スムーズL1損失を用いた回帰とファーコーストスコアを用いた分類の両方を同時に最適化する訓練目的関数を最適化する。

実験結果

リサーチクエスチョン

RQ1アンカーなし、1段階型検出器は、マルチスペクトル小規模歩行者検出において、2段階型アンカー基準モデルを上回ることができるか？
RQ2微小な歩行者に対して、センター基準の物体局所化はアンカー基準の局所化と比較して、精度と効率の面でどのように異なるか？
RQ3KAISTのような困難なベンチマークで、検出性能を向上させるために、どのマルチスペクトルデータ拡張技術が最も効果的か？
RQ4早期のマルチモodal特徴統合は、遮蔽や低視認性の歩行者を検出する際に、どの程度性能を向上させるか？
RQ5リージョンプロポーザルネットワークの複雑さを排除した簡素化されたアーキテクチャでも、最先端の性能を達成できるか？

主な発見

提案されたアンカーなし手法は、KAISTマルチスペクトル歩行者検出ベンチマークで5.68%のログ平均ミスレートを達成し、先行研究の最良成績（7.49%）比で25%の相対的改善を示した。
本モデルは小規模歩行者に対して優れた性能を示し、20×20ピクセル未満の物体で顕著な検出精度の向上を達成した。
提案されたマルチスペクトルデータ拡張戦略は、悪条件の照明や遮蔽状況下でもモデルの汎化性能を向上させた。
1段階型、アンカーなし設計により、モデルの複雑さと推論時間を低減しつつ、2段階型検出器と同等またはそれを上回る性能を維持した。
中心位置の局所化に加えスケール予測を行うことで、アンカー基準手法と比較して、部分的遮蔽された歩行者のより正確で頑健な検出が可能になった。
VISとIR特徴の早期統合により、低コントラストや熱画像コントラストの低い状況でも、より優れた特徴表現が得られ、検出の信頼性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。