QUICK REVIEW

[论文解读] Vision Tiny Recursion Model (ViTRM): Parameter-Efficient Image Classification via Recursive State Refinement

Ange-Clément Akazan, Abdoulaye Koroko|arXiv (Cornell University)|Mar 19, 2026

Advanced Neural Network Applications被引用 0

一句话总结

ViTRM 表明，一个小型、共享权重的递归编码器通过对潜在记忆和预测令牌进行深层监督与停止机制的迭代改进，在 CIFAR-10/100 上取得与 ViTs 或 CNNs 相当的分类准确率，但参数量显著更少。

ABSTRACT

The success of deep learning in computer vision has been driven by models of increasing scale, from deep Convolutional Neural Networks (CNN) to large Vision Transformers (ViT). While effective, these architectures are parameter-intensive and demand significant computational resources, limiting deployment in resource-constrained environments. Inspired by Tiny Recursive Models (TRM), which show that small recursive networks can solve complex reasoning tasks through iterative state refinement, we introduce the extbf{Vision Tiny Recursion Model (ViTRM)}: a parameter-efficient architecture that replaces the $L$-layer ViT encoder with a single tiny $k$-layer block ($k{=}3$) applied recursively $N$ times. Despite using up to $6 imes $ and $84 imes$ fewer parameters than CNN based models and ViT respectively, ViTRM maintains competitive performance on CIFAR-10 and CIFAR-100. This demonstrates that recursive computation is a viable, parameter-efficient alternative to architectural depth in vision.

研究动机与目标

为视觉任务提供参数高效的替代深度架构扩展的动机。
提出 ViTRM，一个微型递归编码器，用共享权重替代深层 ViT 编码器。
在 CIFAR-10/100 上实现与之相当的准确率，同时显著减少参数量。
分析监督深度和潜在推理深度对性能与训练动态的影响。

提出的方法

使用 ViT 风格的补丁嵌入，将图像嵌入为补丁令牌，固定输入特征。
维护两个递归状态：潜在记忆 z（K 个令牌）和预测令牌 y（单个向量）。
对一个微型共享 Transformer 块进行递归应用，以在 T 步中细化 z 并更新 y，z 的更新内部包含 M 次迭代。
在每一步从 y 读取类别逻辑回归输出和一个停止概率 q，使用轻量头部实现早停。
通过在多个步骤进行深度监督来训练，在每一步更新权重，当达到停止条件或达到固定步数时停止训练。

实验结果

研究问题

RQ1递归、权重共享的计算是否能够替代架构深度来完成视觉任务并保持准确性？
RQ2监督深度和潜在推理深度对最终性能和训练稳定性有何影响？
RQ3在参数效率和对批量大小的鲁棒性方面，ViTRM 与 ViT 和 ResNet 基线有何对比？
RQ4与纯前馈潜在细化相比，潜在状态对图像令牌的交叉注意是否对视觉任务有益？

主要发现

ViTRM 以 3.6–3.7M 参数实现了有竞争力的 Top-1 准确率，显著低于 ViT 变体和 ResNet 在 CIFAR-10/100 上的参数量。
在 CIFAR-10 上，ViTRM 在最佳批大小下达到 93.1%，接近 ViT-Small（94%），但参数量比其小 4.7 倍，且远低于 ViT-Base（多达 23 倍）。
在 CIFAR-100 上，ViTRM（72.1%）缩小了与 ViT-Small（76.1%）的差距，并在小批量下与 ViT-Base 相当，同时使用的参数更少。
ViTRM 在所有数据集和批量大小上均衡优于所有 ResNet 变体，尤其在 CIFAR-100 上提升显著（例如 72.1% 对比 ResNet-50 的 63.8%）。
对批量大小的鲁棒性存在于 ViTRM，随着批量增大其降幅小于 ResNet 变体；最佳批量大小约为 128。
消融实验表明最小监督深度（N_supervision=1）可获得最佳性能，而中等潜在推理深度（n_latent_steps≈3）在准确度与计算量之间提供最佳权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。