QUICK REVIEW

[論文レビュー] LoopViT: Scaling Visual ARC with Looped Transformers

Wen-Jie Shu, Xuerui Qiu|arXiv (Cornell University)|Feb 2, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

LoopViT は重みを結んだループ型ビジョン・トランスフォーマーと、予測エントロピーに基づく動的退出を用いて反復的な視覚推論を実現し、大規模な前方 feed-forward モデルよりはるかに少ないパラメータで ARC-AGI 相応の強力な結果を達成する。

ABSTRACT

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

研究の動機と目的

視覚推論は深さや幅を単に増やすだけでなく、反復的な処理から恩恵を受けることを動機付ける。
パラメータ数と推論深さを切り離す Loop-ViT の提案：重み結合再帰を通じて推論深さをパラメータ数から分離する。
ARCスタイルの変換を意味するHybrid Blockを設計し、局所畳み込みとグローバル自己注意を組み合わせる。
予測エントロピーに基づくパラメータなしの Dynamic Exit を導入し、タスクに応じて計算を適応させる。

提案手法

単一の中核トランクを T 回反復展開し、重み結合でグローバル再帰アーキテクチャを定義する。
RoPE を用いた深さ方向畳み込み FFN とマルチヘッド自己注意を組み合わせた Hybrid Encoder Block を実装する。
画像トークンを畳み込みで処理する一方、タスクトークンは空間演算子をバイパスする異種 ConvGLU FFN を開発する。
再帰処理の安定性のため RMSNorm を適用し、予測が結晶化する際に推論を停止するエントロピーベースの動的退出を使用する。
固定深度でオフライン学習を行い頑健な遷移規則を学習した後、テスト時学習（TTT）によるタスク特化微調整を実施する。

実験結果

リサーチクエスチョン

RQ1ループ化され重み結合された再帰が、ARC-AGI のような視覚推論タスクで前方 fed-forward ビジョントランスフォーマーと同等以上を達成できるか。
RQ2反復計算は、モデル規模を単に拡張するよりも、精度・計算量・パラメータのトレードオフを改善するか。
RQ3局所的な畳み込みとグローバルな注意の帰納的バイアスは、ARC様式の変換を解くのにどのように寄与するか。
RQ4エントロピーベースの動的退出は、追加パラメータなしで適応的な思考時間を可能にするか。
RQ5Loop-ViT のループステップごとの注意と予測のダイナミクスはどうなるか。

主な発見

Model	パラメータ数	ARC-AGI-1	ARC-AGI-2
Deepseek-R1	671B	15.8	1.3
Claude 3.7 8k	N/A	21.2	0.9
o3-mini-high	N/A	34.5	3.0
GPT-5	N/A	44.0	1.9
Grok-4-thinking	1.7T	66.7	16.0
Bespoke (Grok-4)	1.7T	79.6	29.4
VARC	18M	54.5	8.3
VARC (ensemble)	73M	60.4	11.1
Loop-ViT (Small)	3.8M	60.1	10.0
Loop-ViT (Medium)	11.2M	63.8	11.5
Loop-ViT (Large)	18M	65.8	14.2

Loop-ViT は ARC-1 で 65.8%、パラメータは 18M、73M パラメータ VARC アンサンブルを上回る。
より小さい 3.8M パラメータの Loop-ViT は ARC-1 で 60.1% を達成し、18M VARC ベースラインの 54.5% を上回る。
反復計算は、抽象的な視覚推論においてネットワーク幅の拡張よりも効率的なスケーリング軸を提供する。
予測エントロピーに基づく動的退出は、予測が定まると平均計算量を削減しつつ、タスク全体で精度を維持または向上させる。
Hybrid Block 設計（DW-Conv + MHSA）は、 Vanilla トランスフォーマーを一貫して上回り、局所的空間先行の重要性を示す。
Loop-ViT は、前方伝播のベースラインと比較して、精度・計算量・パラメータのパレート前線が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。