[論文レビュー] Mask-Guided Attention Network for Occluded Pedestrian Detection
本論文は MGAN を提案する。MGAN はマスク誘導型アテンションモジュールで、可視歩行者領域を強調して遮蔽部を抑制し、Faster R-CNN に統合して CityPersons と Caltech で coarse-level のセグメンテーション注釈を用いて最先端の結果を達成する。
Pedestrian detection relying on deep convolution neural networks has made significant progress. Though promising results have been achieved on standard pedestrians, the performance on heavily occluded pedestrians remains far from satisfactory. The main culprits are intra-class occlusions involving other pedestrians and inter-class occlusions caused by other objects, such as cars and bicycles. These result in a multitude of occlusion patterns. We propose an approach for occluded pedestrian detection with the following contributions. First, we introduce a novel mask-guided attention network that fits naturally into popular pedestrian detection pipelines. Our attention network emphasizes on visible pedestrian regions while suppressing the occluded ones by modulating full body features. Second, we empirically demonstrate that coarse-level segmentation annotations provide reasonable approximation to their dense pixel-wise counterparts. Experiments are performed on CityPersons and Caltech datasets. Our approach sets a new state-of-the-art on both datasets. Our approach obtains an absolute gain of 9.5% in log-average miss rate, compared to the best reported results on the heavily occluded (HO) pedestrian set of CityPersons test set. Further, on the HO pedestrian set of Caltech dataset, our method achieves an absolute gain of 5.0% in log-average miss rate, compared to the best reported results. Code and models are available at: https://github.com/Leotju/MGAN.
研究の動機と目的
- 遮蔽物が全身特徴を劣化させる重度遮蔽下での頑健な歩行者検出を動機付ける。
- 軽量な Mask-Guided Attention (MGA) ブランチを提案し、可視領域を強調し、提案領域内の遮蔽を抑制する。
- MGA を標準的な Faster R-CNN ベースの検出器に組み込むことで、エンドツーエンドの学習を可能にする。
- MGA ブランチの実用的な監督信号として粗レベルの可視領域注釈を活用する。
提案手法
- Standard Pedestrian Detector (SPD) ブランチと Mask-Guided Attention (MGA) ブランチの二分支アーキテクチャを導入する。
- MGA は RoI Align 特徴からピクセル単位の空間アテンションマップを生成し、チャンネルごとの再重み付けを通じて全身特徴を調整する。
- MGA マスクは小さな CNN から出力されるピクセルごとの確率マップで、RoI特徴をチャンネルごとに乗算する。
- 検出と遮蔽物対応の監督を共同最適化するために、L = L0 + alpha Lmask + beta Locc の組み合わせ損失で訓練する。
- Lmask は visible-region の境界ボックスを用いた粗レベル(弱い)ピクセル単位監督を二値交差エントロピーで使用する。
- Locc は遮蔽物レベルにより RCNN 分類損失に重みを付け、難易度の高いサンプルを強調する。
実験結果
リサーチクエスチョン
- RQ1標準の検出器内で、マスク誘導型空間アテンションブランチは遮蔽された歩行者の検出を改善できるか?
- RQ2密なピクセル単位ラベルなしで、粗レベルの可視領域注釈だけでピクセル単位のアテンションマスクを監督するのに十分か?
- RQ3さまざまな遮蔽レベルでの検出に、遮蔽感知型損失項を導入する影響は何か?
主な発見
| 方法 | R | HO |
|---|---|---|
| Baseline SPD (L0) | 13.8 | 57.0 |
| Our MGAN (L0 + Lmask) | 11.9 | 52.7 |
| Our MGAN (L0 + Locc) | 13.2 | 55.6 |
| Our Final MGAN (L0 + Lmask + Locc) | 11.5 | 51.7 |
- MGAN は Faster R-CNN ベースラインを上回り、CityPersons の heavy-occlusion セットで log-average miss rate を 57.0 から 51.7 に低減(絶対値で 5.3% の改善)。
- MGA 単独を使用すると HO のミス率は 52.7 になり、Lmask と Locc を組み合わせると HO は 51.7、R セットは 11.5 となる。
- 粗レベルのセグメンテーション注釈は MGA 監督に対して密なピクセル単位ラベリングと同等の性能を示し、費用対効果の高い代替手段を提供する。
- MGAN は CityPersons の検証データと Caltech データセットにおけるさまざまな遮蔽設定で、いくつかの最先端遮蔽重視手法を上回る。
- CityPersons のテストセットで、MGAN は R=9.29、HO=40.97 で最先端の結果を達成(MR が小さいほど良い)。
- MGAN は重度遮蔽下で小型・中型・大型の歩行者の間で強力な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。