[論文レビュー] Align-DETR: Enhancing End-to-end Object Detection with Aligned Loss
Align-DETR は IoU 認識 BCE ロス(IA-BCE)を導入し、混合マッチングと主要サンプル重み付けで分類信頼度と局在のずれを修正し、DETR ベース検 detectors の COCO AP を向上させる。
DETR has set up a simple end-to-end pipeline for object detection by formulating this task as a set prediction problem, showing promising potential. Despite its notable advancements, this paper identifies two key forms of misalignment within the model: classification-regression misalignment and cross-layer target misalignment. Both issues impede DETR's convergence and degrade its overall performance. To tackle both issues simultaneously, we introduce a novel loss function, termed as Align Loss, designed to resolve the discrepancy between the two tasks. Align Loss guides the optimization of DETR through a joint quality metric, strengthening the connection between classification and regression. Furthermore, it incorporates an exponential down-weighting term to facilitate a smooth transition from positive to negative samples. Align-DETR also employs many-to-one matching for supervision of intermediate layers, akin to the design of H-DETR, which enhances robustness against instability. We conducted extensive experiments, yielding highly competitive results. Notably, our method achieves a 49.3% (+0.6) AP on the H-DETR baseline with the ResNet-50 backbone. It also sets a new state-of-the-art performance, reaching 50.5% AP in the 1x setting and 51.7% AP in the 2x setting, surpassing several strong competitors. Our code is available at https://github.com/FelixCaae/AlignDETR.
研究の動機と目的
- DETRベース検出器における分類信頼度と局在精度のずれを特定・定量化する。
- 後処理を変更せずに分類と局在を整合させる、単純で効果的な IA-BCE ロスを提案する。
- 多対一と一対一の混合マッチング戦略でトレーニング効率を改善する。
- 稀薄なクエリのネガティブ影響を軽減するためのプライムサンプル重み付け。
- 強力なベースラインとともに COCO で最先端の結果を示す。
提案手法
- IoU と信頼度を捉える品質ターゲット t = s^α · u^(1−α) を定義する(IA-BCE ターゲット)。
- 非対称 IA-BCE ロスを用いる:前景には IA-BCE ターゲットの BCE、負例にはフォーカル風の重み付け。
- 混合マッチング戦略を適用:浅いデコーダ層で多対一マッチング、最上位層で一対一。
- プライムサンプル重み付けを導入:グループ内のサンプル順位に基づく重み w_i = exp(−r_i/τ) で二次陽性を低重み付け。
- 同じ重み w_i で回帰損失も低重み付けして、学習のフォーカスを一貫させる。
- 中間層には L_m2o、最終層には L_o2o を組み合わせる損失形(式 8)を採用。

実験結果
リサーチクエスチョン
- RQ1DETR の一対一マッチングは分類信頼度と局在品質のずれを生じさせるか?
- RQ2IoU を意識した損失は DETR における信頼度スコアと局在精度の相関を改善できるか?
- RQ3混合マッチングはエンドツーエンドの最適化を犠牲にすることなくトレーニングを加速できるか?
- RQ4プライムサンプルと二次陽性の重み付けは BR(Best-Regressed)サンプルのリコールと全体の AP を改善するか?
主な発見
| モデル | エポック数 | クエリ数 | AP | AP50 | AP75 | AP S | AP M | AP L | パラメータ数 | GFLOPS |
|---|---|---|---|---|---|---|---|---|---|---|
| Align-DETR-R50 | 50 | 100? (not listed) | 46.0 | 64.9 | 49.5 | 25.2 | 50.5 | 50.2? (not shown) | 64.7 | 94 |
| DN-DETR-R50 | 50 | 300 | 44.1 | 64.4 | 46.7 | 22.9 | 48.0 | ? | 63.4 | 94 |
| Align-DETR-DC5-R | 50 | 300 | 48.3 | 66.7 | 52.5 | 29.7 | 52.8 | 65.9 | 42 | 200 |
| Align-DETR-DC5-R 101 | 50 | 300 | 49.3 | 67.4 | 53.7 | 30.6 | 54.3 | 66.4 | 61 | 279 |
| Align-DETR (1x) with DINO | 1 | 900 | 50.2 | 67.8 | 54.4 | 32.9 | 53.3 | 65.0 | 47 | 279 |
| Align-DETR (2x) with DINO | 2 | 900 | 51.3 | 68.2 | 56.1 | 35.5 | 55.1 | 65.6 | 47 | 279 |
- IA-BCE は信頼度と IoU の整合を改善し、ベースラインと比較して AP および AP75 を向上させる。
- IA-BCE + 混合マッチングを用いた Align-DETR は DAB-DETR-R50 ベースラインで +3.8 AP を達成(50 エポック)。
- 1x COCO で DINO をベースラインとすると Align-DETR は検証で 50.2 AP を達成;1x および 2x スケジュールは強力なベースラインを上回る改善を示す。
- Align-DETR はいくつかの DETR バリアントや CNN ベース検出器を上回りつつ、同程度か少ないクエリ数とトレーニング労力で。
- プライムサンプル重み付けと混合マッチングの両方が性能向上に寄与;IA-BCE が主な改善を提供。
- アブレーションにより α を約 0.25付近が最も安定性と性能をもたらすことを示す;k と τ は中程度の効果。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。