QUICK REVIEW

[论文解读] Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Quan Kong, Yanru Xiao|arXiv (Cornell University)|Feb 28, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

Vision-TTT 通过对视觉序列应用测试时训练来获得线性时间的视觉骨干，在高分辨率下显著降低 FLOPs 和内存需求的同时仍具竞争力的 ImageNet 精度。它采用双数据集和 Conv2d 预处理来建模二维视觉相关性，具有全局径向感受野。

ABSTRACT

Learning efficient and expressive visual representation has long been the pursuit of computer vision research. While Vision Transformers (ViTs) gradually replace traditional Convolutional Neural Networks (CNNs) as more scalable vision learners, their applications are plagued by the quadratic complexity of the self-attention mechanism. To address the challenge, we introduce a new linear-time sequence modeling method Test-Time Training (TTT) into vision and propose Vision-TTT, which treats visual sequences as datasets and compresses the visual token sequences in a novel self-supervised learning manner. By incorporating the dual-dataset strategy and Conv2d-based dataset preprocessing, Vision-TTT effectively extends vanilla TTT to model 2D visual correlations with global receptive fields. Extensive experiments show that exttt{Vittt-T/S/B} achieve $77.7\%,81.8\%,82.7\%$ Top-1 accuracy on ImageNet classification and also greatly outperform their counterparts on downstream tasks. At $1280 imes1280$ resolution, exttt{Vittt-T} reduces FLOPs by $79.4\%$ and runs $4.72 imes$ faster with $88.9\%$ less memory than DeiT-T. These results demonstrate the expressiveness and efficiency of Vision-TTT as a strong candidate for the next-generation generic visual backbone.

研究动机与目标

说明 ViTs 中超过二次自注意力的高效表达式视觉骨干的必要性。
提出 Vision-TTT，利用测试时训练来压缩视觉 Token 语义。
通过双数据集和基于 Conv2d 的预处理将 vanilla TTT 扩展到二维视觉。
在 ImageNet 和下游任务上展示线性计算和内存复杂度，并实现有竞争力的精度。

提出的方法

将视觉 Token 序列视作数据集并进行基于梯度的自监督更新（TTT），将语义压缩到隐藏状态。
采用双数据集策略引入双向空间上下文（前向和后向），并使用基于 Conv2d 的数据增强进行二维预处理。
在分块阶段之后使用 Vision-TTT 编码器模块（Vittt 块加 SwiGluMLP）和任务适配器进行监督。
共享 Q/K 投影以降低参数数量，并采用均值池化或线性头进行分类的梯度驱动学习。
实现面向硬件的线性时间核（Tensor Cores）和按批次的梯度更新，使序列长度的复杂度为线性。
提供可解释性机制，通过梯度基的 Token 重要性图（GMM）和 ERF 分析。

实验结果

研究问题

RQ1测试时训练是否可以有效地适应具有线性复杂度的二维视觉表征学习？
RQ2双数据集和 Conv2d 预处理是否能让 Vision-TTT 捕捉到具有全局感受野的二维空间相关性？
RQ3在 ImageNet 和下游任务的多尺度评估中，Vision-TTT 相较于 ViT、Vim 等其他线性/SSM 基模型的表现如何？
RQ4在高分辨率如 1280x1280 下，Vision-TTT 的效率（FLOPs、内存、吞吐量）权衡如何？
RQ5设计选择（小批量大小、初始状态、分类策略）如何影响性能？

主要发现

Vittt-T、Vittt-S、Vittt-B 在 ImageNet-1K 上的 Top-1 精度分别为 77.7%、81.8%、82.7%。
在 1280x1280 分辨率下，Vittt-T/S/B 的 FLOPs 分别降低 79.4%、66.3%、48.9%，速度分别达到 DeiT-T/S/B 的 4.72x、4.23x、3.88x，并且内存减少 88.9%。
在下游 COCO 检测和 ADE20K 分割任务上，Vittt-T/S/B 的表现优于 Vim 及相关基线（如论文中提到的 AP^b、AP^m、mIoU 增益）。
Vittt 展现出线性时间复杂度和内存占用，在高分辨率场景下优于二次复杂度的 ViT，并提供高效的视觉骨干。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。