[论文解读] LoopViT: Scaling Visual ARC with Looped Transformers
LoopViT 引入一个权重绑定的循环视觉变换器,具备基于动态熵的退出机制以执行迭代视觉推理,在 far fewer parameters 的情况下达到强劲的 ARC-AGI 结果。
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
研究动机与目标
- 表明视觉推理受益于迭代,而不仅仅是更深或更宽的网络。
- 提出 Loop-ViT,通过权重绑定的递归将推理深度与参数数量解耦。
- 设计混合模块,结合局部卷积和全局自注意力以实现 ARC 风格的变换。
- 引入基于预测熵的无参数动态退出,以在不同任务中自适应计算量。
提出的方法
- 定义一个全局递归结构,在单一核心主干上展开 T 次,进行权重绑定。
- 实现混合编码器块,将逐通道卷积前馈网络与多头自注意力(使用 RoPE)结合。
- 开发异质性 ConvGLU FFN,使用卷积处理图像Token;任务Token跳过空间算子。
- 在递归处理中的稳定性应用 RMSNorm,并使用基于熵的动态退出在预测稳定时停止推理。
- 离线以固定深度进行训练以学习鲁棒的转换规则,然后在测试时通过测试时训练(TTT)进行任务特定微调。
实验结果
研究问题
- RQ1循环、权重绑定的递归是否能够在视觉推理任务(如 ARC-AGI)中达到或超过前馈视觉变换器?
- RQ2迭代计算是否在准确性–计算–参数权衡方面优于简单地扩大模型规模?
- RQ3局部(卷积)与全局(注意力)感知偏差如何共同促进解决 ARC 风格的变换?
- RQ4基于熵的动态退出是否能够在不增加额外参数的情况下实现自适应推理时间?
- RQ5Loop-ViT 在循环步骤中的注意力与预测动态是如何演化的?
主要发现
| 模型 | #参数 | ARC-AGI-1 | ARC-AGI-2 |
|---|---|---|---|
| Deepseek-R1 | 671B | 15.8 | 1.3 |
| Claude 3.7 8k | N/A | 21.2 | 0.9 |
| o3-mini-high | N/A | 34.5 | 3.0 |
| GPT-5 | N/A | 44.0 | 1.9 |
| Grok-4-thinking | 1.7T | 66.7 | 16.0 |
| Bespoke (Grok-4) | 1.7T | 79.6 | 29.4 |
| VARC | 18M | 54.5 | 8.3 |
| VARC (ensemble) | 73M | 60.4 | 11.1 |
| Loop-ViT (Small) | 3.8M | 60.1 | 10.0 |
| Loop-ViT (Medium) | 11.2M | 63.8 | 11.5 |
| Loop-ViT (Large) | 18M | 65.8 | 14.2 |
- Loop-ViT 在 ARC-1 上以 18M 参数达到 65.8%,超越 73M 参数的 VARC 集成。
- 一个更小的 3.8M 参数 Loop-ViT 在 ARC-1 上达到 60.1%,击败 18M VARC 基线的 54.5%。
- 迭代计算提供了比扩大网络宽度更高效的抽象视觉推理的规模化轴。
- 基于预测熵的动态退出在保持或提升跨任务准确性的同时降低平均计算量。
- 混合块设计(DW-Conv + MHSA)持续优于普通变换器,表明局部空间先验的重要性。
- Loop-ViT 相对于前馈基线,在准确性–计算量–参数方面呈现有利的帕累托前沿。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。