[논문 리뷰] Improved Multiscale Vision Transformers for Classification and Detection
이 논문은 분해된 상대적 위치 임베딩과 잔차 풀링 연결을 갖춘 향상된 다중 척도 비전 트랜스포머(MViT)를 제안하며, 이미지 분류, 객체 검출, 비디오 인식 작업 전반에서 성능을 향상시킨다. 추가 구성 요소 없이도 최신 기술 수준(SOTA) 성능을 달성한다: ImageNet의 상위-1 정확도 88.8%, COCO 검출에서 56.1 박스 AP, Kinetics-400에서 86.1%의 정확도를 기록하여 이전 방법을 능가한다.
In this paper, we study Multiscale Vision Transformers (MViT) as a unified architecture for image and video classification, as well as object detection. We present an improved version of MViT that incorporates decomposed relative positional embeddings and residual pooling connections. We instantiate this architecture in five sizes and evaluate it for ImageNet classification, COCO detection and Kinetics video recognition where it outperforms prior work. We further compare MViTs' pooling attention to window attention mechanisms where it outperforms the latter in accuracy/compute. Without bells-and-whistles, MViT has state-of-the-art performance in 3 domains: 88.8% accuracy on ImageNet classification, 56.1 box AP on COCO object detection as well as 86.1% on Kinetics-400 video classification. Code and models will be made publicly available.
연구 동기 및 목표
- 이미지, 비디오 및 객체 검출 작업 전반에 걸쳐 비전 트랜스포머 아키텍처를 통합하는 것.
- 새로운 위치 인코딩과 잔차 연결을 통해 MViT의 성능을 향상시키는 것.
- 정확도와 계산 효율성 측면에서 풀링 어텐션과 윈도우 어텐션 기반 메커니즘을 비교하는 것.
- 복잡한 데이터 증강 기법이나 학습 트릭에 의존하지 않고 최신 기술 수준의 성능를 달성하는 것.
제안 방법
- 다중 척도 특징 내 공간 관계를 더 잘 모델링하기 위해 분해된 상대적 위치 임베딩을 도입한다.
- 기울기 흐름 향상과 척도 간 특징 정제를 강화하기 위해 잔차 풀링 연결을 통합한다.
- 다양한 비전 작업을 위한 계층적 특징 표현을 갖춘 다중 척도 트랜스포머 아키텍처를 설계한다.
- 풀링을 통해 전역적 맥락과 국소적 인도티브 바이어스를 결합한 통합 어텐션 메커니즘을 구현한다.
- 스케일링 행동과 효율성을 분석하기 위해 다섯 가지 모델 크기로 아키텍처를 평가한다.
- 추가적인 데이터 증강 또는 후처리 없이 표준 학습 프로토콜을 사용한다.
실험 결과
연구 질문
- RQ1제안된 MViT 변종은 이전 방법과 비교해 이미지 분류, 객체 검출 및 비디오 인식에서 어떤 성능을 보이는가?
- RQ2분해된 상대적 위치 임베딩은 모델 정확도와 일반화에 어떤 영향을 미치는가?
- RQ3정확도와 계산 효율성 측면에서 풀링 어텐션은 윈도우 어텐션보다 어떻게 비교되는가?
- RQ4일관된 MViT 아키텍처가 작업별 맞춤형 수정 없이도 여러 비전 작업에서 최신 기술 수준 성능를 달성할 수 있는가?
- RQ5다른 모델 크기에서 개선된 MViT의 성능 스케일링 행동은 어떠한가?
주요 결과
- 향상된 MViT는 ImageNet 분류에서 88.8%의 상위-1 정확도를 달성하여 새로운 최신 기술 수준을 수립한다.
- COCO 객체 검출에서 56.1 박스 AP를 기록하며, 추가 구성 요소 없이도 이전 방법을 능가한다.
- Kinetics-400 비디오 분류에서 86.1%의 정확도를 달성하여 비디오 이해 분야에서 뛰어난 성능를 입증한다.
- 제안된 풀링 어텐션 메커니즘이 정확도와 계산 효율성 측면에서 윈도우 어텐션을 모두 능가한다.
- 이식성 있는 MViT 아키텍처는 이미지, 비디오 및 검출 분야 전반에서 최신 기술 수준 성능를 달성하며, 벨스 앤드 윌즈를 사용하지 않는다.
- ablative 분석 결과, 분해된 상대적 위치 임베딩과 잔차 풀링 연결이 성능 향상에 크게 기여하는 것으로 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.