[논문 리뷰] detrex: Benchmarking Detection Transformers
detrex는 DETR 기반 모델을 위한 모듈식이고 경량의 프레임워크와 포괄적인 벤치마크 모음을 제공하여 재현성을 향상시키고 탐지, 분할 및 포즈 추정 작업 전반에 걸친 공정한 비교를 가능하게 합니다.
The DEtection TRansformer (DETR) algorithm has received considerable attention in the research community and is gradually emerging as a mainstream approach for object detection and other perception tasks. However, the current field lacks a unified and comprehensive benchmark specifically tailored for DETR-based models. To address this issue, we develop a unified, highly modular, and lightweight codebase called detrex, which supports a majority of the mainstream DETR-based instance recognition algorithms, covering various fundamental tasks, including object detection, segmentation, and pose estimation. We conduct extensive experiments under detrex and perform a comprehensive benchmark for DETR-based models. Moreover, we enhance the performance of detection transformers through the refinement of training hyper-parameters, providing strong baselines for supported algorithms.We hope that detrex could offer research communities a standardized and unified platform to evaluate and compare different DETR-based models while fostering a deeper understanding and driving advancements in DETR-based instance recognition. Our code is available at https://github.com/IDEA-Research/detrex. The project is currently being actively developed. We encourage the community to use detrex codebase for further development and contributions.
연구 동기 및 목표
- 개발 및 평가를 위한 DETR 기반 모델에 특화된 통합적이고 모듈식 플랫폼을 제공합니다.
- 표준 데이터셋에서 DETR 기반 탐지, 분할 및 포즈 추정 알고리즘을 벤치마크합니다.
- 학습 및 하이퍼파라미터 최적화를 통해 재현 성능을 향상시킵니다.
- 백본 및 변형 간 모델 성능, 학습 비용 및 추론 속도에 대한 공정한 비교를 제공합니다.
제안 방법
- 모듈식 설계: 확장 가능한 확장을 갖춘 여섯 가지 핵심 구성요소(Backbone, Encoder, Query Initialization, Decoder, Matcher, Loss).
- 경량 학습 엔진과 유연한 실험을 위한 LazyConfig 기반 구성을 제공합니다.
- COCO val2017에서 DETR 변형 간의 포괄적 벤치마킹, 학습 비용, FLOPs, FPS, 메모리 포함.
- 백본 및 모델 변형 벤치마킹에서 기본 탐지기로 DINO를 사용합니다.
- 제거 연구 및 하이퍼파라미터 연구를 통해 민감도와 성능 향상을 식별합니다.
- 재현성을 위한 다수의 DETR 기반 모델(예: Deformable-DETR, DINO, H-DETR, DAB-DETR, DN-DETR) 및 분할/포즈 방법의 제공.
실험 결과
연구 질문
- RQ1단일 프레임워크가 DETR 기반 모델 간 재현성과 공정한 비교를 어떻게 향상시킬 수 있을까?
- RQ2학습 하이퍼파라미터와 백본이 DETR 기반 탐지기에 미치는 영향은 무엇인가?
- RQ3표준화된 벤치마크에서 DETR 기반 모델이 탐지, 분할 및 포즈 추정 작업에서 어떻게 수행되는가?
- RQ4NMS와 같은 후처리가 DETR 변형에 여전히 이점을 제공하는가?
- RQ5통합 코드베이스 내에서 신중한 매개변수 조정을 통해 어떤 기본 개선이 달성될 수 있는가?
주요 결과
| 모델 | #에폭 | AP | AP 50 | AP 75 | AP S | AP M | AP L | #매개변수 | GFLOPs | FPS | 메모리 | GPU-시간 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Deformable-DETR-Two-Stage | 50 | 48.2 | 67.0 | 52.2 | 30.7 | 51.4 | 63.0 | 41.2M | 175.6 ± 19.1 | 26.3 | 11.0GB | 208h |
| Anchor-DETR | 50 | 41.9 | 62.9 | 44.6 | 22.0 | 46.0 | 59.7 | 37.0M | 92.7 ± 9.2 | 27.8 | 44.7GB | 168h |
| Conditional-DETR | 50 | 41.6 | 63.0 | 43.9 | 21.4 | 45.2 | 59.8 | 43.4M | 89.1 ± 9.7 | 37.8 | 6.4GB | 164h |
| DAB-DETR | 50 | 43.3 | 63.9 | 45.9 | 23.4 | 47.1 | 62.1 | 43.7M | 90.4 ± 9.7 | 32.9 | 5.0GB | 214h |
| DN-DETR | 50 | 44.7 | 65.3 | 47.5 | 23.7 | 48.7 | 64.1 | 43.7M | 90.5 ± 9.7 | 32.2 | 5.1GB | 240h |
| DAB-Deformable-DETR | 50 | 49.0 | 67.4 | 53.4 | 31.5 | 52.1 | 64.4 | 47.4M | 231.3 ± 25.1 | 23.4 | 10.5GB | 230h |
| DAB-Deformable-DETR-Two-Stage | 50 | 49.7 | 68.0 | 54.3 | 31.9 | 53.2 | 64.7 | 47.5M | 235.4 ± 255 | 22.1 | 10.5GB | 220h |
| DINO-4scale | 12 | 49.7 | 67.0 | 54.4 | 31.4 | 52.9 | 63.6 | 47.7M | 244.5 ± 25.5 | 24.6 | 10.9GB | 67h |
| H-DETR | 12 | 49.1 | 66.9 | 53.7 | 32.2 | 52.3 | 63.8 | 47.9M | 268.1 ± 24.7 | 22.4 | 12.0GB | 80h |
| DETA-5scale | 12 | 50.2 | 67.4 | 55.2 | 32.3 | 54.2 | 65.0 | 48.4M | 247.1 ± 25.9 | 15.3 | 10.8GB | 53h |
| Backbone Variants (ResNet-50, Swin, ViT, ConvNeXt, InternImage, etc.) | — | — | — | — | — | — | — | — | — | — | — | — |
- detrex는 15개가 넘는 주요 DETR 기반 알고리즘의 재현 가능한 재현을 가능하게 하여 원래 구현보다 성능이 향상되었습니다.
- NMS Post-processing은 DETR 변형에서 일관된 이득을 제공하며 특히 AP50 및 APL에서 기본 임계값 0.8로 이점이 큽니다.
- 하이퍼파라미터 조정은 여러 모델에서 상당한 성능 향상을 가져오며(예: 조정 설정에서 Deformable-DETR-Two-Stage의 AP가 최대 1.3 증가).
- 백본 간에 더 큰 사전학습 백본과 최신 아키텍처(예: Swin, FocalNet, InternImage)가 DETR 기반 탐지기의 AP를 더 높입니다.
- DINO 및 DETA는 DETR 변형 간 빠른 수렴을 보이고 Conditional-DETR은 낮은 메모리 사용으로 빠른 추론을 제공합니다.
- Detrex 재현은 Deformable-DETR(+0.4 AP) 및 Deformable-DETR-Two-Stage(+1.1 AP)와 같이 원래 구현 대비 성능 향상을 제공합니다.
- 분할 및 포즈 추정 방법(Mask2Former, MP-Former, MaskDINO, ED-Pose)은 보고된 결과와 일치하여 detrex를 신뢰할 수 있는 벤치마크로 확인합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.