Skip to main content
QUICK REVIEW

[논문 리뷰] End-to-End Object Detection with Adaptive Clustering Transformer

Minghang Zheng, Peng Gao|arXiv (Cornell University)|2020. 11. 18.
Advanced Image and Video Retrieval Techniques참고 문헌 47인용 수 117
한 줄 요약

이 논문은 Adaptive Clustering Transformer (ACT)를 DETR의 인코더 어텐션에 대한 드롭인 대체로 제시하여 E2LSH를 통한 적응형 클러스터링으로 계산을 줄이고, Multi-Task Knowledge Distillation (MTKD)로 성능을 더욱 향상시킨다.

ABSTRACT

End-to-end Object Detection with Transformer (DETR)proposes to perform object detection with Transformer and achieve comparable performance with two-stage object detection like Faster-RCNN. However, DETR needs huge computational resources for training and inference due to the high-resolution spatial input. In this paper, a novel variant of transformer named Adaptive Clustering Transformer(ACT) has been proposed to reduce the computation cost for high-resolution input. ACT cluster the query features adaptively using Locality Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside self-attention into O(NK) where K is the number of prototypes in each layer. ACT can be a drop-in module replacing the original self-attention module without any training. ACT achieves a good balance between accuracy and computation cost (FLOPs). The code is available as supplementary for the ease of experiment replication and verification. Code is released at \url{https://github.com/gaopengcuhk/SMCA-DETR/}

연구 동기 및 목표

  • DETR의 고해상도 입력에 따른 높은 계산 비용을 엔드투엔드 세트 예측을 유지하면서 축소하려는 동기를 제시한다.
  • ACT를 제안하여 인코더 자기 어텐션을 적응형 클러스터링으로 대체하고 계산 복잡도를 제곱에서 거의 선형으로 낮춘다.
  • retraining 없이 DETR과 호환되는 드롭인 모듈로 ACT의 호환성을 입증하고, 추가 정확도 향상을 위한 MTKD를 탐색한다.
  • COCO 2017에서 FLOPs 감소와 AP 트레이드오프를 정량화하고 실용적 사용을 안내하는 Ablations를 제공한다.

제안 방법

  • 로컬리티 센시티브 해싱(LSH), 구체적으로 Exact Euclidean LSH(E2LSH)를 사용하여 인코더 각 층에서 쿼리를 프로토타입으로 적응적으로 클러스터링한다.
  • 프로토타입과 키 사이의 주의(attention)만 계산한 뒤, 구성원 쿼리로 프로토타입 업데이트를 브로드캐스트하여 복잡도를 O(NMDk+NMDv)에서 O(NLDK+CMDK+CMDV)로 감소시킨다.
  • 다중 라운드 LSH(rounds L)를 통해 특징 분포에 따라 층별 프로토타입 수를 동적으로 결정한다.
  • 선택적으로 MTKD를 적용하여 ACT와 전체 DETR 예측을 정렬하고 원활한 스위치 및 정확도 향상을 가능하게 한다.
  • 훈련 목표 L = L_pred + L_KD를 제공하여 ACT에서 DETR로 상자 회귀를 증류시키고 수렴을 개선한다.
  • retraining 없이 DETR에 대한 ACT의 드롭인으로 평가하고 MTKD로 개선을 정량화한다.

실험 결과

연구 질문

  • RQ1ACT가 retraining 없이 DETR의 인코더 자기 어텐션 계산을 줄이면서 탐지 성능을 유지할 수 있는가?
  • RQ2LSH를 통한 적응형 클러스터링이 인코더 층 및 물체 크기에 따라 AP와 FLOPs에 어떤 영향을 미치는가?
  • RQ3MTKD가 ACT와 전체 DETR 간의 성능 격차를 더 줄일 수 있는가?
  • RQ4COCO 2017에서 ACT 대 DETR 및 Faster R-CNN의 실제 FLOPs, 속도, 메모리 트레이드오프는 어떠한가?

주요 결과

모델GFLOPsAPAP LAP MAP S
Backbone (ResNet50-DC5)110.7----
DETR-DC5+73.443.361.147.322.5
Faster RCNN-DC5+209.341.155.045.922.9
ACT (L=32)+58.242.661.146.821.4
ACT (L=24)+53.141.360.645.919.2
ACT (L=20)+49.439.760.344.216.9
ACT (L=16)+45.037.158.841.313.9
ACT+MTKD (L=32)+58.243.161.447.122.2
ACT+MTKD (L=24)+53.142.361.046.421.3
ACT+MTKD (L=20)+49.541.860.745.620.6
ACT+MTKD (L=16)+45.140.659.744.318.5
  • ACT는 베이스 설정에서 DETR의 FLOPs(백본 제외)를 73.4 Gflops에서 58.2 Gflops로 감소시키고 AP 하락은 0.7%에 불과하다.
  • MTKD는 AP 격차를 더 줄여 ACT(L=32)와 결합될 때 DETR에 비해 약 0.2% AP 손실을 달성한다.
  • L=32인 ACT는 DETR-DC5와 유사한 AP를 달성하고 대형/중형 객체에서 Faster RCNN-DC5보다 우수한 성능을 보이며 적은 컴퓨트 사용을 보인다.
  • ACT는 실제 하드웨어에서 추론 시간과 메모리 사용 측면에서 상당한 이점을 제공한다(예: GTX TITAN X에서 이미지당 시간 단축 및 피크 메모리 감소 등).
  • 적응적 클러스터링 방식은 의미적으로 유사한 질의를 그룹화하여 중복 주의(attention)를 크게 줄이고, 깊은 인코더 층에서 특징 중복으로 프로토타입 수가 감소한다.
  • K-means 클러스터링과 비교할 때 ACT는 이미지별 특징 분포 및 인코더 층에 더 잘 적응하여 FLOPs가 비슷한 수준에서 더 나은 정확도를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.