QUICK REVIEW

[논문 리뷰] End-to-End Object Detection with Adaptive Clustering Transformer

Minghang Zheng, Peng Gao|arXiv (Cornell University)|2020. 11. 18.

Advanced Image and Video Retrieval Techniques참고 문헌 47인용 수 117

한 줄 요약

이 논문은 Adaptive Clustering Transformer (ACT)를 DETR의 인코더 어텐션에 대한 드롭인 대체로 제시하여 E2LSH를 통한 적응형 클러스터링으로 계산을 줄이고, Multi-Task Knowledge Distillation (MTKD)로 성능을 더욱 향상시킨다.

ABSTRACT

End-to-end Object Detection with Transformer (DETR)proposes to perform object detection with Transformer and achieve comparable performance with two-stage object detection like Faster-RCNN. However, DETR needs huge computational resources for training and inference due to the high-resolution spatial input. In this paper, a novel variant of transformer named Adaptive Clustering Transformer(ACT) has been proposed to reduce the computation cost for high-resolution input. ACT cluster the query features adaptively using Locality Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside self-attention into O(NK) where K is the number of prototypes in each layer. ACT can be a drop-in module replacing the original self-attention module without any training. ACT achieves a good balance between accuracy and computation cost (FLOPs). The code is available as supplementary for the ease of experiment replication and verification. Code is released at \url{https://github.com/gaopengcuhk/SMCA-DETR/}

연구 동기 및 목표

DETR의 고해상도 입력에 따른 높은 계산 비용을 엔드투엔드 세트 예측을 유지하면서 축소하려는 동기를 제시한다.
ACT를 제안하여 인코더 자기 어텐션을 적응형 클러스터링으로 대체하고 계산 복잡도를 제곱에서 거의 선형으로 낮춘다.
retraining 없이 DETR과 호환되는 드롭인 모듈로 ACT의 호환성을 입증하고, 추가 정확도 향상을 위한 MTKD를 탐색한다.
COCO 2017에서 FLOPs 감소와 AP 트레이드오프를 정량화하고 실용적 사용을 안내하는 Ablations를 제공한다.

제안 방법

로컬리티 센시티브 해싱(LSH), 구체적으로 Exact Euclidean LSH(E2LSH)를 사용하여 인코더 각 층에서 쿼리를 프로토타입으로 적응적으로 클러스터링한다.
프로토타입과 키 사이의 주의(attention)만 계산한 뒤, 구성원 쿼리로 프로토타입 업데이트를 브로드캐스트하여 복잡도를 O(NMDk+NMDv)에서 O(NLDK+CMDK+CMDV)로 감소시킨다.
다중 라운드 LSH(rounds L)를 통해 특징 분포에 따라 층별 프로토타입 수를 동적으로 결정한다.
선택적으로 MTKD를 적용하여 ACT와 전체 DETR 예측을 정렬하고 원활한 스위치 및 정확도 향상을 가능하게 한다.
훈련 목표 L = L_pred + L_KD를 제공하여 ACT에서 DETR로 상자 회귀를 증류시키고 수렴을 개선한다.
retraining 없이 DETR에 대한 ACT의 드롭인으로 평가하고 MTKD로 개선을 정량화한다.

실험 결과

연구 질문

RQ1ACT가 retraining 없이 DETR의 인코더 자기 어텐션 계산을 줄이면서 탐지 성능을 유지할 수 있는가?
RQ2LSH를 통한 적응형 클러스터링이 인코더 층 및 물체 크기에 따라 AP와 FLOPs에 어떤 영향을 미치는가?
RQ3MTKD가 ACT와 전체 DETR 간의 성능 격차를 더 줄일 수 있는가?
RQ4COCO 2017에서 ACT 대 DETR 및 Faster R-CNN의 실제 FLOPs, 속도, 메모리 트레이드오프는 어떠한가?

주요 결과

모델	GFLOPs	AP	AP L	AP M	AP S
Backbone (ResNet50-DC5)	110.7	-	-	-	-
DETR-DC5	+73.4	43.3	61.1	47.3	22.5
Faster RCNN-DC5	+209.3	41.1	55.0	45.9	22.9
ACT (L=32)	+58.2	42.6	61.1	46.8	21.4
ACT (L=24)	+53.1	41.3	60.6	45.9	19.2
ACT (L=20)	+49.4	39.7	60.3	44.2	16.9
ACT (L=16)	+45.0	37.1	58.8	41.3	13.9
ACT+MTKD (L=32)	+58.2	43.1	61.4	47.1	22.2
ACT+MTKD (L=24)	+53.1	42.3	61.0	46.4	21.3
ACT+MTKD (L=20)	+49.5	41.8	60.7	45.6	20.6
ACT+MTKD (L=16)	+45.1	40.6	59.7	44.3	18.5

ACT는 베이스 설정에서 DETR의 FLOPs(백본 제외)를 73.4 Gflops에서 58.2 Gflops로 감소시키고 AP 하락은 0.7%에 불과하다.
MTKD는 AP 격차를 더 줄여 ACT(L=32)와 결합될 때 DETR에 비해 약 0.2% AP 손실을 달성한다.
L=32인 ACT는 DETR-DC5와 유사한 AP를 달성하고 대형/중형 객체에서 Faster RCNN-DC5보다 우수한 성능을 보이며 적은 컴퓨트 사용을 보인다.
ACT는 실제 하드웨어에서 추론 시간과 메모리 사용 측면에서 상당한 이점을 제공한다(예: GTX TITAN X에서 이미지당 시간 단축 및 피크 메모리 감소 등).
적응적 클러스터링 방식은 의미적으로 유사한 질의를 그룹화하여 중복 주의(attention)를 크게 줄이고, 깊은 인코더 층에서 특징 중복으로 프로토타입 수가 감소한다.
K-means 클러스터링과 비교할 때 ACT는 이미지별 특징 분포 및 인코더 층에 더 잘 적응하여 FLOPs가 비슷한 수준에서 더 나은 정확도를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.