[논문 리뷰] End-to-End Object Detection with Adaptive Clustering Transformer
이 논문은 Adaptive Clustering Transformer (ACT)를 DETR의 인코더 어텐션에 대한 드롭인 대체로 제시하여 E2LSH를 통한 적응형 클러스터링으로 계산을 줄이고, Multi-Task Knowledge Distillation (MTKD)로 성능을 더욱 향상시킨다.
End-to-end Object Detection with Transformer (DETR)proposes to perform object detection with Transformer and achieve comparable performance with two-stage object detection like Faster-RCNN. However, DETR needs huge computational resources for training and inference due to the high-resolution spatial input. In this paper, a novel variant of transformer named Adaptive Clustering Transformer(ACT) has been proposed to reduce the computation cost for high-resolution input. ACT cluster the query features adaptively using Locality Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside self-attention into O(NK) where K is the number of prototypes in each layer. ACT can be a drop-in module replacing the original self-attention module without any training. ACT achieves a good balance between accuracy and computation cost (FLOPs). The code is available as supplementary for the ease of experiment replication and verification. Code is released at \url{https://github.com/gaopengcuhk/SMCA-DETR/}
연구 동기 및 목표
- DETR의 고해상도 입력에 따른 높은 계산 비용을 엔드투엔드 세트 예측을 유지하면서 축소하려는 동기를 제시한다.
- ACT를 제안하여 인코더 자기 어텐션을 적응형 클러스터링으로 대체하고 계산 복잡도를 제곱에서 거의 선형으로 낮춘다.
- retraining 없이 DETR과 호환되는 드롭인 모듈로 ACT의 호환성을 입증하고, 추가 정확도 향상을 위한 MTKD를 탐색한다.
- COCO 2017에서 FLOPs 감소와 AP 트레이드오프를 정량화하고 실용적 사용을 안내하는 Ablations를 제공한다.
제안 방법
- 로컬리티 센시티브 해싱(LSH), 구체적으로 Exact Euclidean LSH(E2LSH)를 사용하여 인코더 각 층에서 쿼리를 프로토타입으로 적응적으로 클러스터링한다.
- 프로토타입과 키 사이의 주의(attention)만 계산한 뒤, 구성원 쿼리로 프로토타입 업데이트를 브로드캐스트하여 복잡도를 O(NMDk+NMDv)에서 O(NLDK+CMDK+CMDV)로 감소시킨다.
- 다중 라운드 LSH(rounds L)를 통해 특징 분포에 따라 층별 프로토타입 수를 동적으로 결정한다.
- 선택적으로 MTKD를 적용하여 ACT와 전체 DETR 예측을 정렬하고 원활한 스위치 및 정확도 향상을 가능하게 한다.
- 훈련 목표 L = L_pred + L_KD를 제공하여 ACT에서 DETR로 상자 회귀를 증류시키고 수렴을 개선한다.
- retraining 없이 DETR에 대한 ACT의 드롭인으로 평가하고 MTKD로 개선을 정량화한다.
실험 결과
연구 질문
- RQ1ACT가 retraining 없이 DETR의 인코더 자기 어텐션 계산을 줄이면서 탐지 성능을 유지할 수 있는가?
- RQ2LSH를 통한 적응형 클러스터링이 인코더 층 및 물체 크기에 따라 AP와 FLOPs에 어떤 영향을 미치는가?
- RQ3MTKD가 ACT와 전체 DETR 간의 성능 격차를 더 줄일 수 있는가?
- RQ4COCO 2017에서 ACT 대 DETR 및 Faster R-CNN의 실제 FLOPs, 속도, 메모리 트레이드오프는 어떠한가?
주요 결과
| 모델 | GFLOPs | AP | AP L | AP M | AP S |
|---|---|---|---|---|---|
| Backbone (ResNet50-DC5) | 110.7 | - | - | - | - |
| DETR-DC5 | +73.4 | 43.3 | 61.1 | 47.3 | 22.5 |
| Faster RCNN-DC5 | +209.3 | 41.1 | 55.0 | 45.9 | 22.9 |
| ACT (L=32) | +58.2 | 42.6 | 61.1 | 46.8 | 21.4 |
| ACT (L=24) | +53.1 | 41.3 | 60.6 | 45.9 | 19.2 |
| ACT (L=20) | +49.4 | 39.7 | 60.3 | 44.2 | 16.9 |
| ACT (L=16) | +45.0 | 37.1 | 58.8 | 41.3 | 13.9 |
| ACT+MTKD (L=32) | +58.2 | 43.1 | 61.4 | 47.1 | 22.2 |
| ACT+MTKD (L=24) | +53.1 | 42.3 | 61.0 | 46.4 | 21.3 |
| ACT+MTKD (L=20) | +49.5 | 41.8 | 60.7 | 45.6 | 20.6 |
| ACT+MTKD (L=16) | +45.1 | 40.6 | 59.7 | 44.3 | 18.5 |
- ACT는 베이스 설정에서 DETR의 FLOPs(백본 제외)를 73.4 Gflops에서 58.2 Gflops로 감소시키고 AP 하락은 0.7%에 불과하다.
- MTKD는 AP 격차를 더 줄여 ACT(L=32)와 결합될 때 DETR에 비해 약 0.2% AP 손실을 달성한다.
- L=32인 ACT는 DETR-DC5와 유사한 AP를 달성하고 대형/중형 객체에서 Faster RCNN-DC5보다 우수한 성능을 보이며 적은 컴퓨트 사용을 보인다.
- ACT는 실제 하드웨어에서 추론 시간과 메모리 사용 측면에서 상당한 이점을 제공한다(예: GTX TITAN X에서 이미지당 시간 단축 및 피크 메모리 감소 등).
- 적응적 클러스터링 방식은 의미적으로 유사한 질의를 그룹화하여 중복 주의(attention)를 크게 줄이고, 깊은 인코더 층에서 특징 중복으로 프로토타입 수가 감소한다.
- K-means 클러스터링과 비교할 때 ACT는 이미지별 특징 분포 및 인코더 층에 더 잘 적응하여 FLOPs가 비슷한 수준에서 더 나은 정확도를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.