[논문 리뷰] ViT-AdaLA: Adapting Vision Transformers with Linear Attention
ViT-AdaLA는 사전 학습된 softmax 기반 비전 트랜스포머를 선형 주의로 적응시키는 세 단계 정렬(주의, 특징, 감독 하이핑)을 통해 분류 및 세그먼테이션 작업에서 선형 주의로도 거의 softmax 정확도에 근접하게 달성한다.
Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.
연구 동기 및 목표
- 처음부터 학습하지 않고 ViT에서 확장 가능한 선형 주의의 필요성을 동기 부여한다.
- 사전 학습된 VFM에서 선형 주의 ViT로 지식을 전달하기 위한 3단계 프레임워크를 제안한다.
- 주의 및 특징 정렬이 다운스트림 작업에서 높은 정확도와 효율성을 가능하게 함을 보여준다.
제안 방법
- Stage 1 (Attention Alignment): vanilla 선형 주의와 softmax 주의를 층 간 출력의 MSE를 최소화하도록 Q, K, V 프로젝션을 조정하여 정렬한다.
- Stage 2 (Feature Alignment): 소프트맥스를 정렬된 선형 주의로 대체하고 고정된 소프트맥스 교사의 최종 레이어 특징을 맞추도록 전체 선형화 ViT를 미세조정한다(특징 정렬 손실).
- Stage 3 (Supervised Fine-tuning): 작업 특성 헤드를 연결하고 다운스트림 데이터셋에서 미세조정하여 적응된 사전 지식을 전달한다.
- The approach uses vanilla linear attention with kernel-based reformulation (phi = ELU(x)+1) and optimizes attention output alignment and final feature alignment to mitigate error accumulation.
- The framework is architecture-agnostic and compatible with other linear attention methods.
실험 결과
연구 질문
- RQ1세 단계 정렬(주의, 특징, 미세조정)이 softmax ViT에서 선형 주의 ViT로 프리지를 효과적으로 전달할 수 있는가?
- RQ2최종 레이어 특징 정렬이 선형화된 ViTs의 계층별 잔차 오차를 벌칙하고 Dense 비전 작업에 도움이 되는가?
- RQ3ViT-AdaLA가 분류 및 세그먼테이션에서 최신 선형 주의 기준선과 비교하여 어떤 성능을 보이는가?
- RQ4효율성을 유지하면서 고해상도 입력에 프레임워크가 scalable한가?
- RQ5다양한 VFM 및 다운스트림 작업에서 방법이 견고한가?
주요 결과
| Backbone | Res. | Params | FLOPS | Peak Mem. | Throughput | Top-1 Acc. | |
|---|---|---|---|---|---|---|---|
| Softmax (Oquab et al., 2024) | DINOv2-L | 512^2 | 304.20 | 310.60 | 1.3181 | 36.52 | 86.8 |
| Hedgehog (Zhang et al., 2024) | DINOv2-L | 512^2 | 305.77 | 265.41 ↓14.5% | 1.2221 ↓7.3% | 37.44 ↑2.5% | 58.8 |
| LoLCATS (Zhang et al., 2025) | DINOv2-L | 512^2 | 305.77 | 265.41 ↓14.5% | 1.2221 ↓7.3% | 37.44 ↑2.5% | 61.6 |
| Linformer (Wang et al., 2020) | DINOv2-L | 512^2 | 305.77 | 262.19 ↓15.6% | 1.2221 ↓7.3% | 45.41 ↑25.3% | 68.9 |
| Performer (Choromanski et al., 2021) | DINOv2-L | 512^2 | 304.20 | 265.41 ↓14.6% | 1.2164 ↓7.7% | 36.48 ↑0.1% | 75.2 |
| Cosformer (Qin et al., 2022) | DINOv2-L | 512^2 | 304.20 | 265.41 ↓14.6% | 1.2226 ↓7.2% | 39.55 ↑8.2% | 75.1 |
| Nyströmformer (Xiong et al., 2021) | DINOv2-L | 512^2 | 304.20 | 265.20 ↓14.6% | 1.2163 ↓7.7% | 18.29 ↓50.8% | 82.4 |
| Monarch (Yaras et al., 2025) | DINOv2-L | 512^2 | 304.20 | 269.44 ↓13.3% | 1.2304 ↓6.7% | 18.31 ↓48.9% | 82.7 |
| ViT-AdaLA (Stage 2) | DINOv2-L | 512^2 | 304.20 | 262.19 ↓15.6% | 1.2163 ↓7.7% | 41.56 ↑16.1% | 84.5 |
| ViT-AdaLA (Ours) | DINOv2-L | 512^2 | 304.20 | 262.19 ↓15.6% | 1.2163 ↓7.7% | 41.56 ↑16.1% | 86.0 |
- ViT-AdaLA는 softmax 백본에 가까운 Top-1 정확도와 선형 주의 효율성을 동시에 달성한다.
- Stage 1 주의 정렬은 Hedgehog 기반 방법보다 더 나은 근사 및 효율성을 제공한다.
- Stage 2 특징 정렬은 수렴 속도를 높이고 VFM 프리어를 보존하여 다운스트림 작업으로의 강한 전달을 가능하게 한다.
- ImageNet-1K에서 ViT-AdaLA (Ours)는 DINOv2-L 백본과 함께 86.0% Top-1에 도달하여 여러 선형 기준선보다 우수하다.
- ADE20K에서 ViT-AdaLA (Stage 2)는 55.55 mIoU를 달성하여 많은 선형화 기준선과 일치하거나 능가하며, 높은 해상도 입력에서 향상된다.
- 방법은 512^2에서 1024^2로의 해상도 확장에 대해 메모리 및 처리량 측면에서 Softmax 대비 이점을 가지며 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.