Skip to main content
QUICK REVIEW

[論文レビュー] LoopViT: Scaling Visual ARC with Looped Transformers

Wen-Jie Shu, Xuerui Qiu|arXiv (Cornell University)|Feb 2, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

LoopViT は重みを結んだループ型ビジョン・トランスフォーマーと、予測エントロピーに基づく動的退出を用いて反復的な視覚推論を実現し、大規模な前方 feed-forward モデルよりはるかに少ないパラメータで ARC-AGI 相応の強力な結果を達成する。

ABSTRACT

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

研究の動機と目的

  • 視覚推論は深さや幅を単に増やすだけでなく、反復的な処理から恩恵を受けることを動機付ける。
  • パラメータ数と推論深さを切り離す Loop-ViT の提案:重み結合再帰を通じて推論深さをパラメータ数から分離する。
  • ARCスタイルの変換を意味するHybrid Blockを設計し、局所畳み込みとグローバル自己注意を組み合わせる。
  • 予測エントロピーに基づくパラメータなしの Dynamic Exit を導入し、タスクに応じて計算を適応させる。

提案手法

  • 単一の中核トランクを T 回反復展開し、重み結合でグローバル再帰アーキテクチャを定義する。
  • RoPE を用いた深さ方向畳み込み FFN とマルチヘッド自己注意を組み合わせた Hybrid Encoder Block を実装する。
  • 画像トークンを畳み込みで処理する一方、タスクトークンは空間演算子をバイパスする異種 ConvGLU FFN を開発する。
  • 再帰処理の安定性のため RMSNorm を適用し、予測が結晶化する際に推論を停止するエントロピーベースの動的退出を使用する。
  • 固定深度でオフライン学習を行い頑健な遷移規則を学習した後、テスト時学習(TTT)によるタスク特化微調整を実施する。

実験結果

リサーチクエスチョン

  • RQ1ループ化され重み結合された再帰が、ARC-AGI のような視覚推論タスクで前方 fed-forward ビジョントランスフォーマーと同等以上を達成できるか。
  • RQ2反復計算は、モデル規模を単に拡張するよりも、精度・計算量・パラメータのトレードオフを改善するか。
  • RQ3局所的な畳み込みとグローバルな注意の帰納的バイアスは、ARC様式の変換を解くのにどのように寄与するか。
  • RQ4エントロピーベースの動的退出は、追加パラメータなしで適応的な思考時間を可能にするか。
  • RQ5Loop-ViT のループステップごとの注意と予測のダイナミクスはどうなるか。

主な発見

Modelパラメータ数ARC-AGI-1ARC-AGI-2
Deepseek-R1671B15.81.3
Claude 3.7 8kN/A21.20.9
o3-mini-highN/A34.53.0
GPT-5N/A44.01.9
Grok-4-thinking1.7T66.716.0
Bespoke (Grok-4)1.7T79.629.4
VARC18M54.58.3
VARC (ensemble)73M60.411.1
Loop-ViT (Small)3.8M60.110.0
Loop-ViT (Medium)11.2M63.811.5
Loop-ViT (Large)18M65.814.2
  • Loop-ViT は ARC-1 で 65.8%、パラメータは 18M、73M パラメータ VARC アンサンブルを上回る。
  • より小さい 3.8M パラメータの Loop-ViT は ARC-1 で 60.1% を達成し、18M VARC ベースラインの 54.5% を上回る。
  • 反復計算は、抽象的な視覚推論においてネットワーク幅の拡張よりも効率的なスケーリング軸を提供する。
  • 予測エントロピーに基づく動的退出は、予測が定まると平均計算量を削減しつつ、タスク全体で精度を維持または向上させる。
  • Hybrid Block 設計(DW-Conv + MHSA)は、 Vanilla トランスフォーマーを一貫して上回り、局所的空間先行の重要性を示す。
  • Loop-ViT は、前方伝播のベースラインと比較して、精度・計算量・パラメータのパレート前線が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。