[論文レビュー] LoopViT: Scaling Visual ARC with Looped Transformers
LoopViT は重みを結んだループ型ビジョン・トランスフォーマーと、予測エントロピーに基づく動的退出を用いて反復的な視覚推論を実現し、大規模な前方 feed-forward モデルよりはるかに少ないパラメータで ARC-AGI 相応の強力な結果を達成する。
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
研究の動機と目的
- 視覚推論は深さや幅を単に増やすだけでなく、反復的な処理から恩恵を受けることを動機付ける。
- パラメータ数と推論深さを切り離す Loop-ViT の提案:重み結合再帰を通じて推論深さをパラメータ数から分離する。
- ARCスタイルの変換を意味するHybrid Blockを設計し、局所畳み込みとグローバル自己注意を組み合わせる。
- 予測エントロピーに基づくパラメータなしの Dynamic Exit を導入し、タスクに応じて計算を適応させる。
提案手法
- 単一の中核トランクを T 回反復展開し、重み結合でグローバル再帰アーキテクチャを定義する。
- RoPE を用いた深さ方向畳み込み FFN とマルチヘッド自己注意を組み合わせた Hybrid Encoder Block を実装する。
- 画像トークンを畳み込みで処理する一方、タスクトークンは空間演算子をバイパスする異種 ConvGLU FFN を開発する。
- 再帰処理の安定性のため RMSNorm を適用し、予測が結晶化する際に推論を停止するエントロピーベースの動的退出を使用する。
- 固定深度でオフライン学習を行い頑健な遷移規則を学習した後、テスト時学習(TTT)によるタスク特化微調整を実施する。
実験結果
リサーチクエスチョン
- RQ1ループ化され重み結合された再帰が、ARC-AGI のような視覚推論タスクで前方 fed-forward ビジョントランスフォーマーと同等以上を達成できるか。
- RQ2反復計算は、モデル規模を単に拡張するよりも、精度・計算量・パラメータのトレードオフを改善するか。
- RQ3局所的な畳み込みとグローバルな注意の帰納的バイアスは、ARC様式の変換を解くのにどのように寄与するか。
- RQ4エントロピーベースの動的退出は、追加パラメータなしで適応的な思考時間を可能にするか。
- RQ5Loop-ViT のループステップごとの注意と予測のダイナミクスはどうなるか。
主な発見
| Model | パラメータ数 | ARC-AGI-1 | ARC-AGI-2 |
|---|---|---|---|
| Deepseek-R1 | 671B | 15.8 | 1.3 |
| Claude 3.7 8k | N/A | 21.2 | 0.9 |
| o3-mini-high | N/A | 34.5 | 3.0 |
| GPT-5 | N/A | 44.0 | 1.9 |
| Grok-4-thinking | 1.7T | 66.7 | 16.0 |
| Bespoke (Grok-4) | 1.7T | 79.6 | 29.4 |
| VARC | 18M | 54.5 | 8.3 |
| VARC (ensemble) | 73M | 60.4 | 11.1 |
| Loop-ViT (Small) | 3.8M | 60.1 | 10.0 |
| Loop-ViT (Medium) | 11.2M | 63.8 | 11.5 |
| Loop-ViT (Large) | 18M | 65.8 | 14.2 |
- Loop-ViT は ARC-1 で 65.8%、パラメータは 18M、73M パラメータ VARC アンサンブルを上回る。
- より小さい 3.8M パラメータの Loop-ViT は ARC-1 で 60.1% を達成し、18M VARC ベースラインの 54.5% を上回る。
- 反復計算は、抽象的な視覚推論においてネットワーク幅の拡張よりも効率的なスケーリング軸を提供する。
- 予測エントロピーに基づく動的退出は、予測が定まると平均計算量を削減しつつ、タスク全体で精度を維持または向上させる。
- Hybrid Block 設計(DW-Conv + MHSA)は、 Vanilla トランスフォーマーを一貫して上回り、局所的空間先行の重要性を示す。
- Loop-ViT は、前方伝播のベースラインと比較して、精度・計算量・パラメータのパレート前線が優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。