[論文レビュー] DEIM: DETR with Improved Matching for Fast Convergence
DEIMはDense O2OマッチングとMatchability-Aware LossによりDETRベースのリアルタイム物体検出を高速化し、COCOでの収束を速め、APを向上させ、4090 GPUで1日で53.2%のAPを達成。
We introduce DEIM, an innovative and efficient training framework designed to accelerate convergence in real-time object detection with Transformer-based architectures (DETR). To mitigate the sparse supervision inherent in one-to-one (O2O) matching in DETR models, DEIM employs a Dense O2O matching strategy. This approach increases the number of positive samples per image by incorporating additional targets, using standard data augmentation techniques. While Dense O2O matching speeds up convergence, it also introduces numerous low-quality matches that could affect performance. To address this, we propose the Matchability-Aware Loss (MAL), a novel loss function that optimizes matches across various quality levels, enhancing the effectiveness of Dense O2O. Extensive experiments on the COCO dataset validate the efficacy of DEIM. When integrated with RT-DETR and D-FINE, it consistently boosts performance while reducing training time by 50%. Notably, paired with RT-DETRv2, DEIM achieves 53.2% AP in a single day of training on an NVIDIA 4090 GPU. Additionally, DEIM-trained real-time models outperform leading real-time object detectors, with DEIM-D-FINE-L and DEIM-D-FINE-X achieving 54.7% and 56.5% AP at 124 and 78 FPS on an NVIDIA T4 GPU, respectively, without the need for additional data. We believe DEIM sets a new baseline for advancements in real-time object detection. Our code and pre-trained models are available at https://github.com/ShihuaHuang95/DEIM.
研究の動機と目的
- スパースな1対1監視によるDETRの収束遅れに対処する。
- Dense O2Oマッチングにより追加デコーダを使わず画像ごとの監視を増やす。
- 新しい損失関数(MAL)で低品質なマッチの処理を改善する。
- RT-DETRおよびD-FINEの各変種でCOCO上のトレーニング効率と精度の向上を示す。
- リアルタイム検出の改善を示し、速度と精度の点で主要検出器を上回る。
提案手法
- Dense O2Oを導入して1対1マッチングを維持しつつ画像あたりのターゲット数を増やす。
- モザイクとmixupの拡張を適用して画像あたりの追加の陽性サンプルを生成する。
- Matchability-Aware Loss (MAL)を提案し、品質レベルを跨ぐマッチを最適化し低品質マッチを強調する。
- MALとVarifocal Loss (VFL)を比較し、トレーニング効率の向上につながる損失ダイナミクスの改善を示す。
- COCO上でRT-DETRv2とD-FINEを用いたDEIMを評価し、トレーニングコストの低減とAPの向上を報告する。
実験結果
リサーチクエスチョン
- RQ1Dense O2OはDETRベースのトレーニングにおける陽性マッチの量と質にどう影響するか。
- RQ2MALはVFLと比較して低品質マッチの最適化を改善し、全体の性能にどのような影響を及ぼすか。
- RQ3COCO上でDEIMをRT-DETRv2とD-FINEと組み合わせた場合のトレーニング効率と精度の向上は何か。
- RQ4DEIMはリアルタイムのDETRモデルを既存のリアルタイム検出器よりAPと遅延の点で上回ることができるか。
主な発見
- DEIMは収束を加速しAPを改善し、トレーニングコストを削減するとともに、RT-DETRv2とD-FINEを半分のエポック数で上回る。
- RT-DETRv2と組み合わせた場合、DEIMは約1日でNVIDIA 4090 GPU上で53.2%のmAPを達成する。
- DEIMで学習したD-FINE-LとD-FINE-Xは、それぞれ追加データなしで124 FPSと78 FPSで54.7%と56.5%のAPに達する(NVIDIA T4)。
- YOLOv11と比較して、DEIM-RT-DETRv2系はAPが高く(設定によって55.2–55.5%)、待機時間も競争力があるかそれ以上。
- Dense O2Oは画像あたりの陽性サンプル数を大幅に増加させ、デコーダを追加せずに学習を高速化する。
- MALは低品質マッチに対してより強い指針を提供し、トレーニング効率を改善し高品質な予測を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。