QUICK REVIEW

[논문 리뷰] LoopViT: Scaling Visual ARC with Looped Transformers

Wen-Jie Shu, Xuerui Qiu|arXiv (Cornell University)|2026. 02. 02.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

LoopViT는 가중치 결합 루프 비전 트랜스포머에 동적 엔트로피 기반 종료를 도입하여 반복적 시각 추론을 수행하며, 대형 피드포워드 모델보다 훨씬 적은 매개변수로 강력한 ARC-AGI 성능을 달성합니다.

ABSTRACT

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

연구 동기 및 목표

시각적 추론은 더 깊거나 넓은 네트워크뿐만 아니라 반복적(루프) 네트워크의 이점이 있음을 제안한다.
가중치 결합 순환으로 추론 깊이를 매개변수 수와 분리하는 Loop-ViT를 제안한다.
ARC 스타일 변환을 위한 지역적 합성곱과 전역 자기 주의(attention)를 결합한 하이브리드 블록을 설계한다.
예측 엔트로피에 기반한 매개변수 없는 다이내믹 Exit를 도입해 작업 과제에 따라 계산을 적응적으로 조정한다.

제안 방법

가중치 결합을 가진 단일 코어 트렁크를 T 반복으로 펼치는 전역 순환 아키텍처를 정의한다.
RoPE를 사용한 다중-head 자기 주의와 깊이별 합성곱 FFN을 결합한 하이브리드 인코더 블록을 구현한다.
합성곱으로 이미지 토큰을 처리하고 과제 토큰은 공간 연산자를 우회하도록 이질적 ConvGLU FFN을 개발한다.
재귀 처리의 안정성을 위한 RMSNorm을 적용하고 예측이 결정될 때 추론을 중단하는 엔트로피 기반 다이내믹 Exit를 사용한다.
고정된 깊이로 오프라인 훈련하여 견고한 전이 규칙을 학습하고, 이후 테스트 시 특정 작업에 맞춘 미세 조정을 테스트 타임 트레이닝(TTT)으로 수행한다.

실험 결과

연구 질문

RQ1루프형, 가중치 결합 순환이 ARC-AGI와 같은 시각 추론 과제에서 피드 포워드 비전 트랜스포머와 맞먹거나 능가할 수 있는가?
RQ2반복 계산이 모델 크기 확장보다 더 나은 정확도-계산-매개변수 트레이드오프를 제공하는가?
RQ3지역적(합성곱) 및 전역적(주목) 귀납 편향이 ARC 스타일 변환 해결에 어떻게 기여하는가?
RQ4엔트로피 기반의 다이내믹 Exit가 추가 매개변수 없이 적응적 사고 시간을 가능하게 하는가?
RQ5Loop-ViT의 루프 단계 간 주의(attention) 및 예측의 역학은 어떠한가?

주요 결과

모델	#매개변수	ARC-AGI-1	ARC-AGI-2
Deepseek-R1	671B	15.8	1.3
Claude 3.7 8k	N/A	21.2	0.9
o3-mini-high	N/A	34.5	3.0
GPT-5	N/A	44.0	1.9
Grok-4-thinking	1.7T	66.7	16.0
Bespoke (Grok-4)	1.7T	79.6	29.4
VARC	18M	54.5	8.3
VARC (ensemble)	73M	60.4	11.1
Loop-ViT (Small)	3.8M	60.1	10.0
Loop-ViT (Medium)	11.2M	63.8	11.5
Loop-ViT (Large)	18M	65.8	14.2

Loop-ViT는 ARC-1에서 18M 매개변수로 65.8%를 달성하여 73M 매개변수 VARC 앙상블보다 우수하다.
더 작은 3.8M 매개변수 Loop-ViT가 ARC-1에서 60.1%를 달성, 18M VARC 기준선의 54.5%를 상회한다.
반복 계산은 추상적 시각 추론에서 네트워크 폭을 늘리는 것보다 더 효율적인 확장 축을 제공한다.
예측 엔트로피를 기반으로 한 다이내믹 Exit가 평균 컴퓨트를 줄이면서 작업 전반에서 정확도를 유지하거나 향상시킨다.
하이브리드 블록 설계(DW-Conv + MHSA)는 일반적인 트랜스포머를 지속적으로 능가하는 경향을 보이며, 지역적 공간 선행의 중요성을 시사한다.
Loop-ViT는 피드포워드 베이스라인에 비해 정확도-계산-매개변수의 파레토 프런티어가 유리하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.