[논문 리뷰] Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity
Sparse DETR은 학습 가능한 기준으로 인코더 토큰을 희소화해 계산을 줄이고, Deformable DETR 대비 주목할 만한 이득이 있는 더 좋거나 유사한 AP를 달성하며 상당한 속도 향상을 보여줍니다. COCO에서 10% 토큰 사용을 포함합니다.
DETR is the first end-to-end object detector using a transformer encoder-decoder architecture and demonstrates competitive performance but low computational efficiency on high resolution feature maps. The subsequent work, Deformable DETR, enhances the efficiency of DETR by replacing dense attention with deformable attention, which achieves 10x faster convergence and improved performance. Deformable DETR uses the multiscale feature to ameliorate performance, however, the number of encoder tokens increases by 20x compared to DETR, and the computation cost of the encoder attention remains a bottleneck. In our preliminary experiment, we observe that the detection performance hardly deteriorates even if only a part of the encoder token is updated. Inspired by this observation, we propose Sparse DETR that selectively updates only the tokens expected to be referenced by the decoder, thus help the model effectively detect objects. In addition, we show that applying an auxiliary detection loss on the selected tokens in the encoder improves the performance while minimizing computational overhead. We validate that Sparse DETR achieves better performance than Deformable DETR even with only 10% encoder tokens on the COCO dataset. Albeit only the encoder tokens are sparsified, the total computation cost decreases by 38% and the frames per second (FPS) increases by 42% compared to Deformable DETR. Code is available at https://github.com/kakaobrain/sparse-detr
연구 동기 및 목표
- 인코더 토큰을 희소화하여 엔드-투-엔드 DETR 기반 탐지기의 계산 병목을 줄이는 것을 동기화합니다.
- 주요 인코더 토큰을 선택하기 위한 학습 가능한 기준을 제안합니다.
- 보조 인코더 손실이 학습을 안정화하고 정확도를 향상시킨다는 것을 보입니다.
- 다중 스케일 특성으로 COCO에서 Deformable DETR 대비 효율성과 성능 향상을 입증합니다.
제안 방법
- 인코더를 위한 주목도 기반의 학습 가능한 토큰 희소화 체계를 도입합니다.
- 주목 신호로 작용하는 Decoder cross-Attention Map(DAM)을 예측하기 위해 스코어링 네트워크를 사용합니다.
- 레이어당 업데이트를 위한 top-rho 희소화 토큰 집합을 정의합니다.
- 선정된 토큰에 인코더 보조 손실을 적용해 학습을 안정화하고 성능을 높입니다.
- 인코더 출력에서 파생된 상위-k 디코더 쿼리를 채택해 예측을 정교화합니다.
- COCO 2017 검증 세트에서 Swin-T 및 ResNet-50 백본으로 DETR, Deformable DETR, PnP-DETR, Faster R-CNN-FPN과 비교 평가합니다.
실험 결과
연구 질문
- RQ1Can encoder token sparsification in DETR-based detectors reduce computation without sacrificing detection accuracy?
- RQ2Do saliency criteria based on objectness and decoder cross-attention (DAM) better identify tokens to update than random or objectness alone?
- RQ3Does an encoder auxiliary loss improve convergence and allow deeper encoder stacks under sparsity?
- RQ4How does Sparse DETR perform with multi-scale features (e.g., Swin-T) compared to Deformable DETR under varied sparsity levels?
주요 결과
- Sparse DETR는 Deformable DETR에 비해 계산이 크게 감소하면서도 경쟁력 있는 AP를 달성합니다. FLOPs를 38% 감소시키고 FPS를 42% 향상시킵니다.
- DAM 기반 희소화를 적용한 단 10%의 인코더 토큰으로 Sparse DETR은 다수의 베이스라인보다 우수하며 Swin-T 백본에서 Deformable DETR+에 필적합니다.
- DAM 기반 토큰 선택은 백본과 희소성 수준에 관계없이 항상 Objectness Score(OS) 및 임의 샘플링보다 우수합니다.
- 인코더 보조 손실은 더 깊은 인코더(예: 12층)에서 안정적인 학습과 향상된 검출 성능을 가능하게 합니다.
- 추론 중 동적 희소화는 유지 비율 설정에 걸쳐 강건한 성능을 유지하며 일부 베이스라인의 유사한 동적 전략보다 낫습니다.
- Swin-T 백본에서 10% 인코더 토큰의 Sparse DETR은 AP를 보전하거나 향상시키면서 토큰 수준 감소가 12-82%에 이르는 큰 효율 이득을 제공합니다, 특히 더 큰 객체 스케일에서.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.