[논문 리뷰] You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection
YOLOS 는 최소한의 수정으로 순수 시퀀스-투-시퀀스 접근 방식으로 2D 객체 탐지를 수행할 수 있는 바닐라 비전 트랜스포머를 보여주며, ImageNet-1k 사전 학습 후 COCO 결과를 경쟁적으로 달성합니다(예: YOLOS-Base 42.0 AP on COCO val).
Can Transformer perform 2D object- and region-level recognition from a pure sequence-to-sequence perspective with minimal knowledge about the 2D spatial structure? To answer this question, we present You Only Look at One Sequence (YOLOS), a series of object detection models based on the vanilla Vision Transformer with the fewest possible modifications, region priors, as well as inductive biases of the target task. We find that YOLOS pre-trained on the mid-sized ImageNet-1k dataset only can already achieve quite competitive performance on the challenging COCO object detection benchmark, e.g., YOLOS-Base directly adopted from BERT-Base architecture can obtain 42.0 box AP on COCO val. We also discuss the impacts as well as limitations of current pre-train schemes and model scaling strategies for Transformer in vision through YOLOS. Code and pre-trained models are available at https://github.com/hustvl/YOLOS.
연구 동기 및 목표
- 바닐라 Vision Transformer가 최소한의 공간적 귀납 편향으로 이미지 수준 인지에서 2D 객체 탐지로 전이될 수 있음을 입증한다.
- ViT 출력물을 2D 특징 맵으로 재해석하지 않고 순수 시퀀스-투-시퀀스 프레임워크에서 객체 탐지를 수행할 수 있음을 보여준다.
- ViT 기반 탐지기에 대한 사전 학습 전략의 영향을 평가하고 YOLOS 를 ViT 사전 학습 전략의 벤치마크로 확립한다.
제안 방법
- 객체 탐지를 위해 ViT CLS 토큰을 100 DET 토큰으로 교체한다.
- 레이블 할당 중 명시적 2D 공간 사전 정보를 피하면서 세트-예측 방식으로 탐지를 학습하기 위해 이분 매칭 손실을 사용한다.
- 필요한 헤드만 경량 MLP로 구현하여 가능하면 바닐라 ViT에 가깝게 YOLOS 아키텍처를 유지한다(클래스와 바운드박스 예측).
- PATCH 토큰에 DET 토큰을 추가하고 1D 학습 가능 위치 임베딩을 더하며 표준 트랜스포머 인코더 레이어로 학습한다.
- DET 토큰과 작은 헤드는 무작위로 초기화되는 것을 제외하고 ImageNet-1k 사전 학습 가중치에서 파인튜닝한다.
실험 결과
연구 질문
- RQ1사전 학습된 바닐라 ViT가 강력한 2D 객체 탐지로 무거운 2D 귀납 편향 없이 전이될 수 있는가?
- RQ2,
- RQ3,
- RQ4,
- RQ5],
- RQ6key_findings[" A vanilla ViT pre-trained on ImageNet-1k can achieve competitive COCO detection performance with minimal modifications (e.g., YOLOS-Base achieves 42.0 AP on COCO val).",
주요 결과
- ImageNet-1k에서 사전 학습된 바닐라 ViT가 최소한의 수정으로 경쟁력 있는 COCO 탐지 성능을 달성할 수 있다(예: YOLOS-Base 는 COCO val에서 42.0 AP를 달성).
- YOLOS 는 객체 위치의 프록시로서 100 DET 토큰을 사용하고 ViT 출력을 2D 특징 맵으로 재해석하는 것을 피하기 위해 이분 매칭 손실을 사용한다.
- 사전 학습 전략은 COCO로의 전이 학습에 상당한 영향을 미친다; 자기지도 사전 학습(DINO 등)은 작은 모델의 경우 레이블 방향 감독 학습 성능에 근접할 수 있으며, 증류의 이점이 존재한다.
- 스케일링 전략 중 폭 증가(width scaling), 균일 복합 스케일링(dwr), 빠른 스케일링(dwr) 등은 다른 트레이드오프를 보이며, 사전 학습 이득이 고해상도에서 공간 주의력의 중요성으로 인해 COCO에 항상 직접적으로 전달되지는 않는다.
- YOLOS-Ti는 아주 작은 CNN 탐지기와 경쟁력이 있으며, 더 큰 YOLOS 변형은 특정 설정에서 일부 DETR 동료보다 우수할 수 있지만 이득은 모델과 설정에 따라 다르다.
- DET 토큰은 주로 객체의 위치 정보에 대해 정보를 담고 있으며 객체 카테고리 특정 임베딩보다는 위치를 의식하는 객체 프록시의 역할을 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.