QUICK REVIEW

[논문 리뷰] Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Quan Kong, Yanru Xiao|arXiv (Cornell University)|2026. 02. 28.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Vision-TTT는 시퀀스에 Test-Time Training을 적용하여 선형 시간 시각적 백본을 도입하고, 고해상도에서 FLOPs 및 메모리를 크게 줄이면서 ImageNet 정확도 경쟁력을 얻는다. 이중 데이터셋과 Conv2d 전처리를 사용하여 글로벌 방사형 수용영역으로 2D 시각 상관관계를 모델링한다.

ABSTRACT

Learning efficient and expressive visual representation has long been the pursuit of computer vision research. While Vision Transformers (ViTs) gradually replace traditional Convolutional Neural Networks (CNNs) as more scalable vision learners, their applications are plagued by the quadratic complexity of the self-attention mechanism. To address the challenge, we introduce a new linear-time sequence modeling method Test-Time Training (TTT) into vision and propose Vision-TTT, which treats visual sequences as datasets and compresses the visual token sequences in a novel self-supervised learning manner. By incorporating the dual-dataset strategy and Conv2d-based dataset preprocessing, Vision-TTT effectively extends vanilla TTT to model 2D visual correlations with global receptive fields. Extensive experiments show that exttt{Vittt-T/S/B} achieve $77.7\%,81.8\%,82.7\%$ Top-1 accuracy on ImageNet classification and also greatly outperform their counterparts on downstream tasks. At $1280 imes1280$ resolution, exttt{Vittt-T} reduces FLOPs by $79.4\%$ and runs $4.72 imes$ faster with $88.9\%$ less memory than DeiT-T. These results demonstrate the expressiveness and efficiency of Vision-TTT as a strong candidate for the next-generation generic visual backbone.

연구 동기 및 목표

ViTs에서 제곱형 자기 주의 이슈를 넘어선 효율적이고 표현력 있는 시각적 백본의 필요성을 제시합니다.
시험 시간 학습(Test-Time Training)을 사용하여 시각 토큰 의미를 압축하는 Vision-TTT를 제안합니다.
일반 TTT를 2D 비전으로 확장하기 위해 이중 데이터셋과 Conv2d 기반 전처리를 도입합니다.
ImageNet 및 다운스트림 태스크에서 경쟁력 있는 정확도와 함께 선형 계산 및 메모리 복잡도를 보여줍니다.

제안 방법

시각 토큰 시퀀스를 데이터셋으로 취급하고 그래디언트 기반 자기지도 업데이트(TTT)을 수행하여 의미를 숨겨진 상태로 압축합니다.
2D 데이터 확장을 위한 양방향 공간 맥락(전방 및 후방)을 도입하고 Conv2d 기반 전처리를 사용하기 위해 이중 데이터셋 전략을 채택합니다.
패치화 단계 뒤에 Vision-TTT 인코더 블록(Vittt 블록과 SwiGluMLP) 및 감독용 작업 어댑터를 사용합니다.
파라미터를 줄이기 위해 Q/K 투영을 공유하고, 분류를 위해 mean-pool 또는 선형 헤드를 갖는 그래디언트 기반 학습을 적용합니다.
시퀀스 길이에 선형 복잡도를 달성하기 위해 하드웨어 친화적 선형 시간 커널(Tensor Cores) 및 배치 단위 그래디언트 업데이트를 구현합니다.
GMM 및 ERF 분석으로 그래디언트 기반 토큰 중요도 맵을 통한 해석 가능성 메커니즘을 제공합니다.

실험 결과

연구 질문

RQ1TTT를 2D 시각 표현 학습에 선형 복잡도로 효과적으로 적용할 수 있는가?
RQ2이중 데이터셋과 Conv2d 전처리가 Vision-TTT가 글로벌 수용영역으로 2D 공간 상관관계를 포착하도록 하는가?
RQ3Vision-TTT가 ImageNet 및 다운스트림 태스크에서 ViT, Vim 및 다른 선형/SSM 기반 모델과 비교해 여러 스케일에서 어떤 차이를 보이는가?
RQ4해상도가 높은 1280x1280 같은 경우 Vision-TTT의 효율성(FLOPs, 메모리, 처리량) 트레이드오프는 어떠한가?
RQ5미니배치 크기, 초기 상태, 분류 전략 등 설계 선택이 성능에 어떤 영향을 미치는가?

주요 결과

Vittt-T, Vittt-S, 및 Vittt-B가 ImageNet-1K에서 각각 Top-1 정확도 77.7%, 81.8%, 82.7%를 달성합니다.
해상도 1280x1280에서 Vittt-T/S/B는 FLOPs를 각각 79.4%, 66.3%, 48.9% 절감하고 DeiT-T/S/B 대비 각각 4.72x, 4.23x, 3.88x의 속도 향상과 88.9% 더 적은 메모리를 사용합니다.
다운스트림 COCO 검출 및 ADE20K 분할에서 Vittt-T/S/B가 Vim 및 관련 베이스라인보다 우수합니다(논문에 제시된 AP^b, AP^m, mIoU 이득).
Vittt는 선형 시간 복잡도와 메모리를 보여주며, 고해상도 시나리오에서 2차 비전 ViT를 능가하는 효율적 시각 백본을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.