[論文レビュー] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
Sparse R-CNN は、固定の学習可能な提案セットと動的インスタンス対話ヘッドを使用する純粋にスパースな物体検出器を提案し、dense候補やNMS後処理を用いずにCOCOで競合する結果を達成します。
We present Sparse R-CNN, a purely sparse method for object detection in images. Existing works on object detection heavily rely on dense object candidates, such as $k$ anchor boxes pre-defined on all grids of image feature map of size $H imes W$. In our method, however, a fixed sparse set of learned object proposals, total length of $N$, are provided to object recognition head to perform classification and location. By eliminating $HWk$ (up to hundreds of thousands) hand-designed object candidates to $N$ (e.g. 100) learnable proposals, Sparse R-CNN completely avoids all efforts related to object candidates design and many-to-one label assignment. More importantly, final predictions are directly output without non-maximum suppression post-procedure. Sparse R-CNN demonstrates accuracy, run-time and training convergence performance on par with the well-established detector baselines on the challenging COCO dataset, e.g., achieving 45.0 AP in standard $3 imes$ training schedule and running at 22 fps using ResNet-50 FPN model. We hope our work could inspire re-thinking the convention of dense prior in object detectors. The code is available at: https://github.com/PeizeSun/SparseR-CNN.
研究の動機と目的
- 現代の検出器におけるdenseな物体候補への依存に挑む。
- エンドツーエンドの物体検出のための固定された、学習可能な提案ボックスと特徴を導入する。
- NMS の必要性を排除し、最終的な物体集合を直接予測する。
- 単純でスパースなアーキテクチャで COCO において競争的な精度と速度を示す。
提案手法
- dense 候補生成 (HWk 提案) を、固定の、学習可能な N 提案 (ボックス) と N 提案特徴に置換する。
- RoIAlign を用いて各学習可能提案の特徴を抽出し、対応する提案特徴に条件付けられた Dynamic Instance Interactive Head を適用する。
- 一段ごとに refined なボックス/特徴が次の段へ流れ、自己注意を用いてオブジェクト間関係をモデル化する反復的アーキテクチャを組み込む。
- 予測と ground-truth オブジェクト間の一対一のセットベース損失(ビパートite)を用いて訓練し、多対一割り当てを回避する。
- 任意でバックボーンやアブレーションと比較し、提案、反復、動的ヘッドの影響を研究する。
実験結果
リサーチクエスチョン
- RQ1dense priors や NMS なしで純粋なスパースな学習可能提案セットで物体検出を効果的に行えるか?
- RQ2学習可能な提案ボックスと提案特徴が、オブジェクトとスケール全体の検出精度にどのような影響を与えるか?
- RQ3反復的な精練と動的ヘッドは、従来の dense detectors および DETR 的手法と比べて収束速度と最終性能にどのように影響するか?
- RQ4COCO 上でのバックボーン選択と訓練設定に対する手法の頑健性はどうか?
主な発見
| 手法 | バックボーン/設定 | エポック | AP | AP50 | AP75 | APs | APm | APl | FPS |
|---|---|---|---|---|---|---|---|---|---|
| RetinaNet-R50 | FPN、36エポック | 36 | 38.7 | 58.0 | 41.5 | 23.3 | 42.3 | 50.3 | 24 |
| RetinaNet-R101 | FPN、36エポック | 36 | 40.4 | 60.2 | 43.2 | 24.0 | 44.3 | 52.2 | 18 |
| Faster R-CNN-R50 | FPN、36エポック | 36 | 40.2 | 61.0 | 43.8 | 24.2 | 43.5 | 52.0 | 26 |
| Faster R-CNN-R101 | FPN、36エポック | 36 | 42.0 | 62.5 | 45.9 | 25.2 | 45.6 | 54.6 | 20 |
| Cascade R-CNN-R50 | FPN、36エポック | 36 | 44.3 | 62.2 | 48.0 | 26.6 | 47.7 | 57.7 | 19 |
| DETR-R50 | Encoder、500 エポック | 500 | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 | 28 |
| DETR-R101 | Encoder、500 エポック | 500 | 43.5 | 63.8 | 46.4 | 21.9 | 48.0 | 61.8 | 20 |
| DETR-DC5-R50 | Encoder、500 エポック | 500 | 43.3 | 63.1 | 45.9 | 22.5 | 47.3 | 61.1 | 12 |
| DETR-DC5-R101 | Encoder、500 エポック | 500 | 44.9 | 64.7 | 47.7 | 23.7 | 49.5 | 62.3 | 10 |
| Deformable DETR-R50 | DeformEncoder、50 エポック | 50 | 43.8 | 62.6 | 47.7 | 26.4 | 47.1 | 58.0 | 19 |
| Sparse R-CNN-R50 | FPN、36エポック | 36 | 42.8 | 61.2 | 45.7 | 26.7 | 44.6 | 57.6 | 23 |
| Sparse R-CNN-R101 | FPN、36エポック | 36 | 44.1 | 62.1 | 47.2 | 26.1 | 46.3 | 59.7 | 19 |
| Sparse R-CNN*-R50 | FPN、36エポック | 36 | 45.0 | 63.4 | 48.2 | 26.9 | 47.2 | 59.5 | 22 |
| Sparse R-CNN*-R101 | FPN、36エポック | 36 | 46.4 | 64.6 | 49.5 | 28.3 | 48.3 | 61.6 | 18 |
- Sparse R-CNN は dense 候補生成と NMS を回避しつつ、ResNet-50 FPN で 300 提案・36 エポック訓練時の COCO AP の例として 45.0 AP を達成。
- 100 提案で 42.8 AP を達成;300 提案とデータ拡張で 45.0 AP、101-card 提案で 46.4 AP を報告。
- 提案特徴に条件付けられた動的インスタンス対話ヘッドは、静的ヘッドや代替のアテンション機構よりも大きな精度向上を提供。
- DETR よりも学習収束が速く、推論速度も競争的である(例:ResNet-50-FPN で 100-300 提案時に 22 FPS)。
- セットベースの一対一マッチング損失(ビパート)により、従来の多対一割り当てを置換し、ポスト処理なしのエンドツーエンド訓練を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。