[논문 리뷰] DiffusionDet: Diffusion Model for Object Detection
DiffusionDet은 객체 탐지를 노이즈 제거 확산 프로세스로 다루어 무작위 박스를 객체 박스로 정제하고 제안 수를 동적으로 허용하며 경쟁력 있는 성능으로 반복 평가를 가능하게 한다.
We propose DiffusionDet, a new framework that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. During the training stage, object boxes diffuse from ground-truth boxes to random distribution, and the model learns to reverse this noising process. In inference, the model refines a set of randomly generated boxes to the output results in a progressive way. Our work possesses an appealing property of flexibility, which enables the dynamic number of boxes and iterative evaluation. The extensive experiments on the standard benchmarks show that DiffusionDet achieves favorable performance compared to previous well-established detectors. For example, DiffusionDet achieves 5.3 AP and 4.8 AP gains when evaluated with more boxes and iteration steps, under a zero-shot transfer setting from COCO to CrowdHuman. Our code is available at https://github.com/ShoufaChen/DiffusionDet.
연구 동기 및 목표
- 경계 상자 공간에 확산을 적용하여 학습 가능한 쿼리 없는 객체 탐지기를 고무한다.
- 학습과 추론을 분리하여 제안 수를 동적으로 허용하고 반복적 정제를 가능하게 한다.
- COCO, CrowdHuman, LVIS 벤치마크 전반에서 경쟁력 있는 성능을 시연하며 제로샷 전이 시나리오를 포함한다.
제안 방법
- 학습 중에 실제 박스에서 노이즈 박스로의 확산 프로세스로 탐지를 공식화한다.
- 노이즈 입력에 조건화된 박스를 예측하기 위해 이미지 인코더와 6단계 탐지 헤드를 사용한다.
- 실측 박스를 패딩하고 코사인 스케줄을 사용한 가우시안 노이즈를 적용하여 학습 타깃을 생성한다.
- 추론 중에는 임의의 박스에서 시작하여 타임스텝 조건화를 갖춘 학습된 탐지 헤드를 통해 반복적으로 노이즈 제거를 수행한다.
- 단계에 걸쳐 탐지 헤드를 재사용하고 박스 갱신 및 DDIM 기반 업데이트를 적용하여 반복적 평가를 가능하게 한다.
- 재훈련 없이 임의의 수의 박스와 단계로 평가할 수 있는 유연성을 허용한다.

실험 결과
연구 질문
- RQ1객체 탐지를 경계 상자에 대한 노이즈 제거 확산 프로세스로 효과적으로 변환할 수 있는가?
- RQ2확산 기반 탐지기가 재훈련 없이 제안 수의 동적 조정과 반복적 정제를 지원하는가?
- RQ3표준 벤치마크 및 제로샷 전이 벤치마크(COCO, CrowdHuman, LVIS)에서 DiffusionDet의 성능은 기존 탐지기와 비교해 어떠한가?
주요 결과
| 모델 | AP | AP50 | AP75 | APs | APm | APl |
|---|---|---|---|---|---|---|
| DiffusionDet (1 @ 300) | 45.8 | 64.1 | 50.4 | 27.6 | 48.7 | 62.2 |
| DiffusionDet (4 @ 300) | 42.0 | 55.8 | 44.9 | 34.8 | 40.9 | 46.4 |
| DiffusionDet (1 @ 500) | 46.3 | 64.8 | 50.7 | 28.6 | 49.0 | 62.1 |
| DiffusionDet (4 @ 500) | 46.8 | 65.3 | 51.8 | 29.6 | 49.3 | 62.2 |
| Swin-Base Backbone DiffusionDet (4 @ 300) | 42.0 | 55.8 | 44.9 | 34.8 | 40.9 | 46.4 |
- DiffusionDet은 COCO에서 경쟁력 있는 결과를 달성하며, 예를 들어 1×300 설정에서 AP 45.8, 더 많은 박스나 단계에서 개선(예: COCO에서 4×500 시점의 AP 46.8).
- COCO에서 CrowdHuman으로의 제로샷 전이에서 평가 박스를 300에서 2000으로, 반복을 1에서 4로 증가시키면 각각 AP가 5.3, 4.8 증가한다.
- Swin-Base 백본을 사용한 DiffusionDet은 1@300에서 COCO val에서 52.5 AP에 도달하여 여러 베이스라인을 능가하고 더 많은 단계/백본으로 추가 개선된다.
- LVIS 결과는 더 많은 평가 단계에서 DiffusionDet의 이점을 보여주며, 예를 들어 4@300 또는 4@500 백본은 1@300보다 더 높은 AP를 제공하고 특히 더 큰 백본에서 두드러진다.
- 이 모델은 재훈련 없이 동적 박스 수와 반복 평가를 지원하여 고정 쿼리 탐지기와 차별화된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.