QUICK REVIEW

[論文レビュー] Detection in Crowded Scenes: One Proposal, Multiple Predictions

Xuangeng Chu, Anlin Zheng|arXiv (Cornell University)|Mar 20, 2020

Anomaly Detection Techniques and Applications参考文献 57被引用数 25

ひとこと要約

本論文では、1つの提案に対して複数の重複するインスタンスを予測できる新しいオブジェクト検出フレームワークを提案する。これは、極めて密集し重なっているオブジェクトを検出する課題に対処するものである。EMD Lossによるセット予測とSet NMSによる重複抑制を導入することで、CrowdHumanでは4.9%のAP向上、CityPersonsではMR⁻²で1.0%の向上を達成し、COCOを含むさまざまなデータセットにおいて一貫した性能向上を示した。

ABSTRACT

We propose a simple yet effective proposal-based object detector, aiming at detecting highly-overlapped instances in crowded scenes. The key of our approach is to let each proposal predict a set of correlated instances rather than a single one in previous proposal-based frameworks. Equipped with new techniques such as EMD Loss and Set NMS, our detector can effectively handle the difficulty of detecting highly overlapped objects. On a FPN-Res50 baseline, our detector can obtain 4.9\% AP gains on challenging CrowdHuman dataset and 1.0\% $ ext{MR}^{-2}$ improvements on CityPersons dataset, without bells and whistles. Moreover, on less crowed datasets like COCO, our approach can still achieve moderate improvement, suggesting the proposed method is robust to crowdedness. Code and pre-trained models will be released at https://github.com/megvii-model/CrowdDetection.

研究の動機と目的

密集したシーンにおける重なりが激しいインスタンスを検出できない標準的な提案ベースの検出器の失敗を解消すること。
特徴の類似性と空間的重なりにより、正しいが重複する予測をNMSが抑制できないという制限を克服すること。
既存の検出器に大きな計算コストをかけずに統合可能なシンプルで即席のソリューションを開発すること。
密集度が異なるシーン（極度に密集したシーンからスカスキのシーンまで）にわたって堅牢性を確保すること。
特に困難な状況において、密集インスタンスの検出リコールを向上させつつ、誤検出を減らすこと。

提案手法

1つの提案あたり1つのインスタンスを予測するのではなく、複数のインスタンスを出力する多インスタンス予測に置き換えることで、各提案が候補となる検出セットを出力可能にする。
インスタンスセットの予測を監視するため、地球移動距離（EMD）損失を導入し、予測セットと真値セットとのより良い整合性を実現する。
個々のボックスではなく、複数の提案からの重複するインスタンスセットを抑制するpost-processing手法であるSet NMSを提案する。
予測されたインスタンスセット内の誤検出をフィルタリングするためのリファインメントモジュール（RM）を統合し、精度を向上させる。
FPNのような既存の提案ベースの検出器と互換性を持たせ、予測ヘッドはわずかで軽量な構成に留める。
各提案に対して固定サイズのバウンディングボックスと信頼度スコアのセットを予測する学習可能なセット予測ヘッドを採用する。

実験結果

リサーチクエスチョン

RQ11つの提案あたり複数のインスタンスを予測することで、物体が激しく重なっている極めて密集したシーンにおける検出性能が向上するか？
RQ2提案されたEMD損失は、標準的な回帰および分類損失と比較して、セットレベルの予測学習においてどのように優れているか？
RQ3Set NMSは、有効な検出を破棄することなく、重なった提案からの重複予測を効果的に抑制できるか？
RQ4本手法は、オブジェクトの重なりが最小限のCOCOやCityPersonsのような比較的密集度が低いデータセットにも一般化できるか？
RQ5リファインメントモジュールは、密集インスタンスのリコールを保持したまま、誤検出をどの程度低減できるか？

主な発見

提案手法は、Faster R-CNNベースラインと比較して、CrowdHumanデータセットで4.9%のAP絶対上昇を達成し、追加の調整なしに実現した。
CityPersonsでは、ベースラインと比較してMR⁻²が1.0%向上、APが0.9%向上し、特に密集インスタンスのリコールが8.9%も上昇した（全体108件中64件から96件に）。
COCOでは、Faster R-CNNベースラインと比較して1.0%高いAPを達成し、Soft-NMSと比較しても0.5%の向上を示し、多クラスかつ比較的密集度が低いシーンへの一般化を示した。
CityPersonsにおける密集インスタンスのリコールは、108件中64件から96件に上昇し、重なりが激しい難しいケースの検出性能が顕著に向上した。
COCOでは大インスタンスのAPₗが1.5%向上したため、物体のサイズと重なり具合が性能向上の主な要因であると考えられる。
Set NMSは隣接する提案からの重複予測を効果的に抑制し、信頼度スコアに依存せずに誤検出を減らし、精度を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。