QUICK REVIEW

[論文レビュー] ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Yifan Li, Seunghyun Yoon|arXiv (Cornell University)|Mar 17, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

ViT-AdaLAは3段階のアライメントを通じて、ソフトマックスを備えたViTの事前学習 priors を線形アテンションへ効果的に移す。分類とセグメンテーションにおいて、コストを抑えつつ高い精度を実現。

ABSTRACT

Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.

研究の動機と目的

ViTs におけるスクラッチからのトレーニングを回避して、スケーラブルな線形アテンションの必要性を動機づける。
事前学習済み VFMs から線形アテンション ViT へ知識を転移する3段階フレームワークを提案する。
アテンションとフィーチャーのアラインメントが、下流タスクで高精度と効率を実現することを示す。

提案手法

Stage 1 (Attention Alignment): アンル vanilla 線形アテンションを softmax アテンションと一致させるため、層間の出力の MSE を最小化するよう Q、K、V 投影を調整。
Stage 2 (Feature Alignment): softmax を整列した線形アテンションへ置換し、全体の線形化ViT を微調整して frozen softmax 教師の最終層特徴を再現する（特徴アラインメント損失）。
Stage 3 (Supervised Fine-tuning): 下流データセットでタスク特化ヘッドを接続し、適応 priors を転移させるようにファインチューニング。
アプローチはバニラ線形アテンションをカーネルベースの再構成（phi = ELU(x)+1）で用い、アテンション出力の整合と最終特徴の整合を最適化して誤差蓄積を緩和。
このフレームワークはアーキテクチャに依存せず、他の線形アテンション手法と互換性がある。）

実験結果

リサーチクエスチョン

RQ1ソフトマックスViT から線形アテンションViT へ、3段階のアライメント（アテンション、フィーチャ、ファインチューニング）でpriors を効果的に転移できるか？
RQ2最終層の特徴を整合させることで、線形化ViT の層間残差誤差を密な視覚タスクで緩和できるか？
RQ3ViT-AdaLA は分類とセグメンテーションで、最先端の線形アテンションベースのベースラインと比較してどのような性能か？
RQ4高解像度入力に対しても効率を保ちながらスケーラブルか？
RQ5異なるVFM や下流タスクに対して方法はロバストか？

主な発見

Backbone	Res.	Params	FLOPS	Peak Mem.	Throughput	Top-1 Acc.
Softmax (Oquab et al., 2024)	DINOv2-L	512^2	304.20	310.60	1.3181	36.52	86.8
Hedgehog (Zhang et al., 2024)	DINOv2-L	512^2	305.77	265.41 ↓14.5%	1.2221 ↓7.3%	37.44 ↑2.5%	58.8
LoLCATS (Zhang et al., 2025)	DINOv2-L	512^2	305.77	265.41 ↓14.5%	1.2221 ↓7.3%	37.44 ↑2.5%	61.6
Linformer (Wang et al., 2020)	DINOv2-L	512^2	305.77	262.19 ↓15.6%	1.2221 ↓7.3%	45.41 ↑25.3%	68.9
Performer (Choromanski et al., 2021)	DINOv2-L	512^2	304.20	265.41 ↓14.6%	1.2164 ↓7.7%	36.48 ↑0.1%	75.2
Cosformer (Qin et al., 2022)	DINOv2-L	512^2	304.20	265.41 ↓14.6%	1.2226 ↓7.2%	39.55 ↑8.2%	75.1
Nyströmformer (Xiong et al., 2021)	DINOv2-L	512^2	304.20	265.20 ↓14.6%	1.2163 ↓7.7%	18.29 ↓50.8%	82.4
Monarch (Yaras et al., 2025)	DINOv2-L	512^2	304.20	269.44 ↓13.3%	1.2304 ↓6.7%	18.31 ↓48.9%	82.7
ViT-AdaLA (Stage 2)	DINOv2-L	512^2	304.20	262.19 ↓15.6%	1.2163 ↓7.7%	41.56 ↑16.1%	84.5
ViT-AdaLA (Ours)	DINOv2-L	512^2	304.20	262.19 ↓15.6%	1.2163 ↓7.7%	41.56 ↑16.1%	86.0

ViT-AdaLA はソフトマックス backbone に近いトップ1精度を達成しつつ、線形アテンションの効率を維持。
Stage 1 のアテンションアラインメントは、Hedgehog ベースの手法よりも近似性と効率を提供。
Stage 2 の特徴アラインメントは収束を加速し、VFM priors を保持して下流タスクへの強い転移を可能にする。
ImageNet-1K では ViT-AdaLA (Ours) が DINOv2-L バックボーンで 86.0% top-1を達成し、いくつかの線形ベースラインを上回る。
ADE20K では ViT-AdaLA (Stage 2) が 55.55 mIoU を達成し、多くの線形化ベースラインと同等またはそれを上回り、解像度が高い入力で改善。
Method は解像度のスケーラビリティを示し、512^2 から 1024^2 へ拡大してもソフトマックスよりもメモリとスループットの利点を保ちつつ性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。