QUICK REVIEW

[논문 리뷰] XCiT: Cross-Covariance Image Transformers

Alaaeldin El-Nouby, Hugo Touvron|arXiv (Cornell University)|2021. 06. 17.

Domain Adaptation and Few-Shot Learning참고 문헌 81인용 수 233

한 줄 요약

XCiT는 특성 채널 전체에서 작동하는 교차 공분산 어텐션(XCA)을 도입하여 선형 복잡도로 확장 가능한 비전 트랜스포머를 가능하게 하며, ImageNet, COCO, ADE20k 및 자체 지도 학습 벤치마크에서 기준선을 매치하거나 능가합니다.

ABSTRACT

Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.

연구 동기 및 목표

고해상도 비전 작업을 위한 효율적이고 확장 가능한 트랜스포머를 동기 부여한다.
토큰 수에 대한 복잡도를 2차에서 선형으로 감소시키기 위해 표준 자기-어텐션을 교차 공분산 어텐션으로 대체한다.
현장 패치 상호 작용(Local Patch Interaction)과 피드포워드 네트워크와 XCA를 결합하여 실용적인 비전 트랜스포머를 구축한다.
이미지 분류, 객체 탐지, 의미 분할, 그리고 자체 지도 학습에 걸친 XCiT의 성능을 입증한다.

제안 방법

토큰 차원 대신 특성 차원에서 작동하는 교차 공분산 어텐션(XCA)을 정의한다.
학습을 stabilizing하기 위해 행/열 정규화와 학습 가능한 온도 매개변수를 적용한다.
복잡도를 줄이고 최적화를 용이하게 하기 위해 블록 대각선 다중 머리 구조를 도입한다.
컬럼형 인코더 아키텍처에서 XCA를 Local Patch Interaction(LPI) 및 포인트와이즈 피드포워드 네트워크와 통합한다.
이미지 분류 작업에서 전역 집계를 위해 클래스 어텐션을 사용한다.
8x8 및 16x16 패치 크기와 최대 384x384 해상도에서 실험하며, 컨볼루션 교사와의 증류도 포함한다.

실험 결과

연구 질문

RQ1교차 공분산 어텐션이 고해상도 비전 작업을 위한 2차 자기-어텐션의 확장 가능한 대안을 제공할 수 있는가?
RQ2XCA가 이미지 분류, 탐지, 세그먼테이션 벤치마크 전반에서 계산 및 메모리 비용을 줄이면서 정확도를 유지하는가?
RQ3ViT 및 컨볼루셔널 백본과 비교하여 자체 지도 학습 설정에서 XCiT는 어떤 성능을 보이는가?
RQ4블록 대각선(그룹화된) 어텐션 구조가 최적화 및 성능을 향상시키는가?
RQ5학습 및 테스트 중 입력 해상도 변화에 대해 XCiT가 강건한가?

주요 결과

XCiT-L24/16은 189M 파라미터와 417.9 GFLOPs에서 224x224의 ImageNet-1k에서 86.0% top-1 정확도 달성.
COCO에서 XCiT 백본은 객체 탐지에 대해 48.5% AP, 인스턴스 세그먼테이션에 대해 43.7% AP를 달성.
ADE20k 의미 분할에서 XCiT는 48.4% mIoU에 도달하며, 같은 규모의 Swin Transformer 백본을 능가한다.
DINO를 사용한 자체 지도 학습에서 XCiT는 ImageNet-1k에서 80.9% top-1 정확도를 달성한다.
XCA는 토큰 수의 선형 복잡도로 작동하여 고해상도 이미지의 효율적 처리를 가능하게 한다.
클래스 어텐션 시각화는 헤드가 의미론적으로 일관된 영역에 집중하고 콘텐츠에 적응하는 모습을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.