[論文レビュー] detrex: Benchmarking Detection Transformers
Detrexは、DETRベースのモデル向けにモジュラーで軽量なフレームワークと包括的なベンチマークスイートを提供し、再現性を向上させ、検出、セグメンテーション、姿勢推定タスクの公正な比較を可能にする。
The DEtection TRansformer (DETR) algorithm has received considerable attention in the research community and is gradually emerging as a mainstream approach for object detection and other perception tasks. However, the current field lacks a unified and comprehensive benchmark specifically tailored for DETR-based models. To address this issue, we develop a unified, highly modular, and lightweight codebase called detrex, which supports a majority of the mainstream DETR-based instance recognition algorithms, covering various fundamental tasks, including object detection, segmentation, and pose estimation. We conduct extensive experiments under detrex and perform a comprehensive benchmark for DETR-based models. Moreover, we enhance the performance of detection transformers through the refinement of training hyper-parameters, providing strong baselines for supported algorithms.We hope that detrex could offer research communities a standardized and unified platform to evaluate and compare different DETR-based models while fostering a deeper understanding and driving advancements in DETR-based instance recognition. Our code is available at https://github.com/IDEA-Research/detrex. The project is currently being actively developed. We encourage the community to use detrex codebase for further development and contributions.
研究の動機と目的
- DETRベースのモデルの開発と評価に合わせて、統一されたモジュラー プラットフォームを提供する。
- 標準データセット上でDETRベースの検出、セグメンテーション、姿勢推定アルゴリズムをベンチマークする。
- トレーニングとハイパーパラメータ最適化を通じて再現性の高い性能を向上させる。
- バックボーンやバリアント間で、モデル性能、トレーニングコスト、推論速度の公正な比較を提供する。
提案手法
- モジュラー設計:拡張可能な拡張機能を備えた六つのコアコンポーネント(Backbone、Encoder、Query Initialization、Decoder、Matcher、Loss)。
- 軽量なトレーニングエンジンと、柔軟な実験のためのLazyConfigベースの設定。
- COCO val2017上のDETRバリアントを横断した総合ベンチマークで、トレーニングコスト、FLOPs、FPS、メモリを含む。
- デフォルト検出器としてDINOを用いたバックボーンとモデルバリアントのベンチマーク。
- 感度と性能向上を特定するアブレーションとハイパーパラメータの研究。
- 再現性のため、Deformable-DETR、DINO、H-DETR、DAB-DETR、DN-DETR など複数のDETRベースモデルとセグメンテーション/姿勢推定手法を提供。
実験結果
リサーチクエスチョン
- RQ1統一フレームワークは、DETRベースモデル間の再現性と公正な比較をどのように向上させることができるか?
- RQ2トレーニングのハイパーパラメータとバックボーンがDETRベース検出器に与える影響は?
- RQ3標準化されたベンチマークの下で、検出、セグメンテーション、姿勢推定タスクにおけるDETRベースモデルの性能はどうか?
- RQ4NMSのような後処理は、DETRバリアントにも依然として利点をもたらすか?
- RQ5統一コードベース内でのパラメータ調整により得られるベースラインの改善は何か?
主な発見
| Model | #ep | AP | AP 50 | AP 75 | AP S | AP M | AP L | #params | GFLOPs | FPS | Memory | GPU-h |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Deformable-DETR-Two-Stage | 50 | 48.2 | 67.0 | 52.2 | 30.7 | 51.4 | 63.0 | 41.2M | 175.6 ± 19.1 | 26.3 | 11.0GB | 208h |
| Anchor-DETR | 50 | 41.9 | 62.9 | 44.6 | 22.0 | 46.0 | 59.7 | 37.0M | 92.7 ± 9.2 | 27.8 | 44.7GB | 168h |
| Conditional-DETR | 50 | 41.6 | 63.0 | 43.9 | 21.4 | 45.2 | 59.8 | 43.4M | 89.1 ± 9.7 | 37.8 | 6.4GB | 164h |
| DAB-DETR | 50 | 43.3 | 63.9 | 45.9 | 23.4 | 47.1 | 62.1 | 43.7M | 90.4 ± 9.7 | 32.9 | 5.0GB | 214h |
| DN-DETR | 50 | 44.7 | 65.3 | 47.5 | 23.7 | 48.7 | 64.1 | 43.7M | 90.5 ± 9.7 | 32.2 | 5.1GB | 240h |
| DAB-Deformable-DETR | 50 | 49.0 | 67.4 | 53.4 | 31.5 | 52.1 | 64.4 | 47.4M | 231.3 ± 25.1 | 23.4 | 10.5GB | 230h |
| DAB-Deformable-DETR-Two-Stage | 50 | 49.7 | 68.0 | 54.3 | 31.9 | 53.2 | 64.7 | 47.5M | 235.4 ± 255 | 22.1 | 10.5GB | 220h |
| DINO-4scale | 12 | 49.7 | 67.0 | 54.4 | 31.4 | 52.9 | 63.6 | 47.7M | 244.5 ± 25.5 | 24.6 | 10.9GB | 67h |
| H-DETR | 12 | 49.1 | 66.9 | 53.7 | 32.2 | 52.3 | 63.8 | 47.9M | 268.1 ± 24.7 | 22.4 | 12.0GB | 80h |
| DETA-5scale | 12 | 50.2 | 67.4 | 55.2 | 32.3 | 54.2 | 65.0 | 48.4M | 247.1 ± 25.9 | 15.3 | 10.8GB | 53h |
| Backbone Variants (ResNet-50, Swin, ViT, ConvNeXt, InternImage, etc.) | — | — | — | — | — | — | — | — | — | — | — | — |
- Detrexは、15以上の主要なDETRベースアルゴリズムの再現性の高い再現を可能にし、元の実装より性能を向上させる。
- NMS後処理はDETRバリアントで一貫した利得を提供し、特にAP50とAPLで効果が大きく、デフォルト閾値は0.8。
- ハイパーパラメータの調整により、複数のモデルで大幅な性能向上をもたらす(例:Deformable-DETR-Two-Stageで調整設定時に最大1.3 AP)。
- バックボーン全体で、より大きな事前学習済みバックボーンと新しいアーキテクチャ(例:Swin、FocalNet、InternImage)はDETRベース検出器のAPを高める。
- DINOとDETAはDETRバリアント間で収束が速い一方、Conditional-DETRは低メモリで高速推論を提供。
- Detrexの再現は、Deformable-DETR (+0.4 AP) および Deformable-DETR-Two-Stage (+1.1 AP) のような改善を元の実装よりもたらす。
- セグメンテーションおよび姿勢推定手法(Mask2Former、MP-Former、MaskDINO、ED-Pose)は報告結果と一致し、detrexが信頼できるベンチマークであることを裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。