QUICK REVIEW

[논문 리뷰] Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu, Weijie Su|arXiv (Cornell University)|2020. 10. 08.

Advanced Neural Network Applications참고 문헌 44인용 수 1,866

한 줄 요약

tldr: Deformable DETR은 표준 Transformer 어텐션을 변형 가능한 어텐션으로 대체하여 참조 주변의 소수 샘플링 포인트에 주목, 엔드-투-엔드 DETR 스타일 탐지기에서 빠른 수렴과 작은 객체 탐지 개선을 가능하게 한다. 다중 스케일 피처를 지원하고 반복 정제를 통해 DETR에 비해 훨씬 적은 에폭으로 강력한 COCO 결과를 달성한다.

ABSTRACT

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

연구 동기 및 목표

DETR와 같이 핸드크래프트 구성 요소 없이 엔드-투-엔드 객체 탐지를 동기부여하면서 느린 수렴 및 작은 객체 성능 문제를 해결함.
계산을 줄이고 학습 효율성을 높이기 위해 희소 샘플링 포인트에 주목하는 변형 가능한 어텐션 메커니즘 도입.
다중 스케일 피처를 사용한 변형 가능한 어텐션으로 서로 다른 스케일의 객체를 더 잘 다루되 무거운 FPN 의존성을 피함.

제안 방법

헤드당 참조 포인트 주변에서 K 포인트를 샘플링하는 다중 스케일 변형 가능한 어텐션으로 전체 Transformer 어텐션을 대체합니다(식 2).
L 레벨에서 샘플링하여 다중 스케일 피처에 확장합니다(식 3).
DETR의 인코더 교차 어텐션을 변형 가능한 어텐션으로 대체하고, 자기 어텐션은 그대로 유지합니다.
쿼리별로 참조 포인트를 예측하고 디코더 헤드의 상대 바운딩 박스 오프셋을 사용하여 학습 수렴을 돕습니다.
디코더 레이어 전반에 걸친 반복적인 바운딩 박스 정제를 통해 정확도를 향상시킵니다.
두 스테이지 Deformable DETR를 탐색하여 지역 제안이 생성된 후 디코더에 의해 정제됩니다.

실험 결과

연구 질문

RQ1변형 가능한 어텐션이 이미지 피처 맵에 대해 전체 어텐션을 대체할 만큼 데이터 의존적 희소 샘플링을 제공할 수 있는가?
RQ2다중 스케일 변형 가능한 어텐션이 DETR보다 빠른 수렴과 경쟁력 있는 정확도로 엔드-투-엔드 객체 탐지를 가능하게 하는가?
RQ3반복적인 바운딩 박스 정제 및 두 가지 변형에 의한 성능이 COCO에 어떤 영향을 미치는가?

주요 결과

Method	Epochs	AP	AP_50	AP_75	AP_S	AP_M	AP_L	params	FLOPs	Training_GPU_hours	Inference_FPS
Faster R-CNN + FPN	109	42.0	62.1	45.5	26.6	45.4	53.4	42M	180G	380	26
DETR	500	42.0	62.4	44.2	20.5	45.8	61.1	41M	86G	2000	28
DETR-DC5	500	43.3	63.1	45.9	22.5	47.3	61.1	41M	187G	7000	12
DETR-DC5	50	35.3	55.7	36.8	15.2	37.5	53.6	41M	187G	700	12
DETR-DC5 +	50	36.2	57.0	37.4	16.3	39.2	53.9	41M	187G	700	12
Deformable DETR	50	43.8	62.6	47.7	26.4	47.1	58.0	40M	173G	325	19
+ iterative bounding box refinement	50	45.4	64.7	49.0	26.8	48.3	61.7	40M	173G	325	19
++ two-stage Deformable DETR	50	46.2	65.2	50.0	28.8	49.2	61.7	40M	173G	340	19

Deformable DETR은 약 10배 적은 학습 에폭으로 DETR보다 더 나은 COCO 성능을 달성하며 특히 작은 객체 탐지 성능을 향상시킨다.
샘플링 포인트(K)와 다중 피처 레벨(L)이 있는 다중 스케일 변형 가능한 어텐션은 단일 스케일 또는 비변형 버전보다 더 높은 AP와 AP_S를 제공한다.
반복적 바운딩 박스 정제와 두 스테이지 Deformable DETR은 추가적인 성능 향상을 제공한다.
COCO 2017 검증에서 Refinement가 적용된 Deformable DETR은 50에폭에서 AP가 약 45.4–46.2에 도달해 DETR의 500 에폭의 42.0 AP를 능가한다.
Faster R-CNN + FPN과 비교했을 때 Deformable DETR은 FLOPs가 비슷하고 DETR-DC5보다 학습 속도가 훨씬 빠르며 런타임은 Faster R-CNN + FPN에 근접하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.