[論文レビュー] Rank-DETR for High Quality Object Detection
Rank-DETRは、DETRベースの検出器の高 IoU 精度を向上させるためにランク指向のアーキテクチャ、損失、マッチングコストを導入し、最近の手法と比べてCOCO全バックボーンでAPおよびAP75を向上させる。
Modern detection transformers (DETRs) use a set of object queries to predict a list of bounding boxes, sort them by their classification confidence scores, and select the top-ranked predictions as the final detection results for the given input image. A highly performant object detector requires accurate ranking for the bounding box predictions. For DETR-based detectors, the top-ranked bounding boxes suffer from less accurate localization quality due to the misalignment between classification scores and localization accuracy, thus impeding the construction of high-quality detectors. In this work, we introduce a simple and highly performant DETR-based object detector by proposing a series of rank-oriented designs, combinedly called Rank-DETR. Our key contributions include: (i) a rank-oriented architecture design that can prompt positive predictions and suppress the negative ones to ensure lower false positive rates, as well as (ii) a rank-oriented loss function and matching cost design that prioritizes predictions of more accurate localization accuracy during ranking to boost the AP under high IoU thresholds. We apply our method to improve the recent SOTA methods (e.g., H-DETR and DINO-DETR) and report strong COCO object detection results when using different backbones such as ResNet-$50$, Swin-T, and Swin-L, demonstrating the effectiveness of our approach. Code is available at \url{https://github.com/LeapLabTHU/Rank-DETR}.
研究の動機と目的
- DETRベースの検出器の局在品質を高IoU閾値で向上させることを動機づける。
- 訓練時と推論時に真陽性を促進し偽陽性/偽陰性を抑制するランク認識コンポーネントを開発する。
- デコoding全体でランキング情報を活用するランク適応型分類ヘッドとクエリランクレイヤを設計する。
- GIoU認識の分類損失と高次マッチングコストを導入し、局在精度によるランキングを強化する。
- クロスバックボーンの利得と最先端のDETRベースモデル(例:H-DETR、DINO-DETR)との適合性を示す。
提案手法
- 各デコーダ層の後に学習可能なロジットバイアスベクトルを分類スコアへ追加するランク適応型分類ヘッドを提案する。
- 最後のL-1 Transformerデコーダ層の前にクエリランクレイヤを追加してランク認識コンテンツと位置クエリを再生成する。
- 現在のランキングに従って入力をソートし、統合機構を介してランク認識コンテンツクエリとランク認識位置クエリを導入する。
- 正規化されたGIoUターゲットを使って分類予測を監視するGIoU認識分類損失を導入する。
- ハンガリー法によるマッチングでIoUが高い予測を強調することで高次のマッチングコストを採用し、局在の正確さを優先する。
- ResNet-50、Swin-T、Swin-LなどのバックボーンでH-DETRとDINO-DETRの互換性と改善を示す。
- コードはhttps://github.com/LeapLabTHU/Rank-DETRに提供。
実験結果
リサーチクエスチョン
- RQ1DETRスタイルのデコード全体にランク情報を統合して高IoUの境界ボックス品質を向上させるにはどうすればよいか?
- RQ2DETRベース検出器において分類スコアを局在精度と最もよく整合させるためのアーキテクチャと最適化の変更は何か?
- RQ3ランク指向のコンポーネントはH-DETRやDINO-DETRなど異なるDETR派生とバックボーンで一般化するか?
- RQ4IoU閾値0.75を超えるAPに対するランク認識損失と高次マッチングコストの影響は?
- RQ5ランク認識設計はDETRベース検出器の偽陽性と偽陰性を低減できるか?
主な発見
- Rank-DETRはバックボーンとエポック全体で強力なDETRベースのベースライン(例:H-DETR)を上回るAPを改善する。
- R50バックボーンでCOCO valを12エポック走らせた場合、Rank-DETRはAP50.2、AP75 55.0、AP 64.0を達成する。
- Rank-DETRはAP75で顕著な利得を得る(バックボーンに応じてベースラインより+2.1%〜+2.7%程度)。
- 短い学習スケジュールでも競争力のあるAPを示す(例:R50で12エポックのとき50.2 AP)。
- アブレーション研究はランク指向のアーキテクチャと損失コンポーネントを追加することで累積的な利得を示し、全セットが最良の結果を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。