[논문 리뷰] ViDT: An Efficient and Effective Fully Transformer-based Object Detector
ViDT는 RAM으로 재구성된 Swin Transformer를 가진 완전 트랜스포머 기반 객체 탐지기를 제안하고, 인코더-프리 넥을 사용하며, 토큰 매칭을 통한 지식 증류를 도입하여 COCO에서 우수한 AP와 유리한 지연을 달성합니다.
Transformers are transforming the landscape of computer vision, especially for recognition tasks. Detection transformers are the first fully end-to-end learning systems for object detection, while vision transformers are the first fully transformer-based architecture for image classification. In this paper, we integrate Vision and Detection Transformers (ViDT) to build an effective and efficient object detector. ViDT introduces a reconfigured attention module to extend the recent Swin Transformer to be a standalone object detector, followed by a computationally efficient transformer decoder that exploits multi-scale features and auxiliary techniques essential to boost the detection performance without much increase in computational load. Extensive evaluation results on the Microsoft COCO benchmark dataset demonstrate that ViDT obtains the best AP and latency trade-off among existing fully transformer-based object detectors, and achieves 49.2AP owing to its high scalability for large models. We will release the code and trained models at https://github.com/naver-ai/vidt
연구 동기 및 목표
- 강한 엔드-투-엔드 탐지기를 구축하기 위해 시각 정보와 탐지 트랜스포머를 통합하는 동기를 제시한다.
- RAM을 개발하여 ViT/ViT 유사 백본(예: Swin)이 다중 스케일 특징으로 독립적으로 작동하도록 한다.
- 인코더-프리 넥을 사용하고 보조 디코딩 손실 및 반복 박스 정제를 활용하여 계산 오버헤드를 줄인다.
- 큰 모델과 작은 ViDT 모델 간의 토큰 매칭 지식을 통해 증류로 효율성을 향상시킨다.
제안 방법
- RAM 도입: 전역 주의(global attention)을 PATCH×PATCH, DET×DET, DET×PATCH 주의로 분해하면서 Swin의 파라미터를 재사용한다.
- 무거운 넥 인코더 없이 다중 스케일 특징을 융합하는 Deformable Transformer 디코더로 구성된 인코더-프리 넥을 채택한다.
- 보조 디코딩 손실과 반복 박스 정제를 적용하여 학습 수렴과 예측 품질을 향상시킨다.
- 토큰 매칭을 이용한 교사-학생 ViDT 모델 간 지식 증류를 구현하여 표현 지식을 전달한다.
- 마지막 Swin 스테이지에서만 활성화하여 DET×PATCH 복잡도를 줄이기 위해 선택적 교차 주의도 사용한다.
실험 결과
연구 질문
- RQ1완전 트랜스포머 기반 탐지기가 주목도와 지연에서 COCO에서 경쟁력 있는 성능을 달성할 수 있는가? 주의 구성 및 넥 인코더 제거를 통해 가능할까?
- RQ2RAM이 Swin 유사 백본과 DETR류 디코딩의 효과적 결합을 가능하게 하면서도 확장성과 속도를 유지하는가?
- RQ3보조 디코딩 손실, 반복 박스 정제 및 토큰 매칭 증류가 탐지 성능에 미치는 영향은 무엇인가?
주요 결과
- RAM 및 인코더-프리 넥을 갖춘 ViDT가 COCO에서 완전 트랜스포머 기반 탐지기들 중 최적의 AP–FPS 트레이드오프를 달성한다.
- ViDT는 대형 ViT 백본(예: Swin-base)으로도 잘 확장되며 비교적 낮은 지연에서 높은 AP를 달성한다(예: Swin-base에서 0.1B 파라미터로 49.2 AP).
- 교차 주의 DET×PATCH가 마지막 Swin 스테이지에서 활성화될 때 AP와 FPS의 균형이 가장 잘 맞는다.
- 보조 디코딩 손실 및 반복 박스 정제는 DETR 스타일 탐지기의 성능을 향상시키며, 넥 디코더와 함께 사용할 때 특히 이점이 크며, 넥-프리 변형에는 덜 유익하거나 오히려 해로울 수 있다.
- 토큰 매칭을 통한 교사–학생 ViDT 증류는 작은 모델에서 AP 이득을 제공하며, 더 큰 선생 모델이 더 명확한 이점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.