Skip to main content
QUICK REVIEW

[논문 리뷰] LoopViT: Scaling Visual ARC with Looped Transformers

Wen-Jie Shu, Xuerui Qiu|arXiv (Cornell University)|2026. 02. 02.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

LoopViT는 가중치 결합 루프 비전 트랜스포머에 동적 엔트로피 기반 종료를 도입하여 반복적 시각 추론을 수행하며, 대형 피드포워드 모델보다 훨씬 적은 매개변수로 강력한 ARC-AGI 성능을 달성합니다.

ABSTRACT

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

연구 동기 및 목표

  • 시각적 추론은 더 깊거나 넓은 네트워크뿐만 아니라 반복적(루프) 네트워크의 이점이 있음을 제안한다.
  • 가중치 결합 순환으로 추론 깊이를 매개변수 수와 분리하는 Loop-ViT를 제안한다.
  • ARC 스타일 변환을 위한 지역적 합성곱과 전역 자기 주의(attention)를 결합한 하이브리드 블록을 설계한다.
  • 예측 엔트로피에 기반한 매개변수 없는 다이내믹 Exit를 도입해 작업 과제에 따라 계산을 적응적으로 조정한다.

제안 방법

  • 가중치 결합을 가진 단일 코어 트렁크를 T 반복으로 펼치는 전역 순환 아키텍처를 정의한다.
  • RoPE를 사용한 다중-head 자기 주의와 깊이별 합성곱 FFN을 결합한 하이브리드 인코더 블록을 구현한다.
  • 합성곱으로 이미지 토큰을 처리하고 과제 토큰은 공간 연산자를 우회하도록 이질적 ConvGLU FFN을 개발한다.
  • 재귀 처리의 안정성을 위한 RMSNorm을 적용하고 예측이 결정될 때 추론을 중단하는 엔트로피 기반 다이내믹 Exit를 사용한다.
  • 고정된 깊이로 오프라인 훈련하여 견고한 전이 규칙을 학습하고, 이후 테스트 시 특정 작업에 맞춘 미세 조정을 테스트 타임 트레이닝(TTT)으로 수행한다.

실험 결과

연구 질문

  • RQ1루프형, 가중치 결합 순환이 ARC-AGI와 같은 시각 추론 과제에서 피드 포워드 비전 트랜스포머와 맞먹거나 능가할 수 있는가?
  • RQ2반복 계산이 모델 크기 확장보다 더 나은 정확도-계산-매개변수 트레이드오프를 제공하는가?
  • RQ3지역적(합성곱) 및 전역적(주목) 귀납 편향이 ARC 스타일 변환 해결에 어떻게 기여하는가?
  • RQ4엔트로피 기반의 다이내믹 Exit가 추가 매개변수 없이 적응적 사고 시간을 가능하게 하는가?
  • RQ5Loop-ViT의 루프 단계 간 주의(attention) 및 예측의 역학은 어떠한가?

주요 결과

모델#매개변수ARC-AGI-1ARC-AGI-2
Deepseek-R1671B15.81.3
Claude 3.7 8kN/A21.20.9
o3-mini-highN/A34.53.0
GPT-5N/A44.01.9
Grok-4-thinking1.7T66.716.0
Bespoke (Grok-4)1.7T79.629.4
VARC18M54.58.3
VARC (ensemble)73M60.411.1
Loop-ViT (Small)3.8M60.110.0
Loop-ViT (Medium)11.2M63.811.5
Loop-ViT (Large)18M65.814.2
  • Loop-ViT는 ARC-1에서 18M 매개변수로 65.8%를 달성하여 73M 매개변수 VARC 앙상블보다 우수하다.
  • 더 작은 3.8M 매개변수 Loop-ViT가 ARC-1에서 60.1%를 달성, 18M VARC 기준선의 54.5%를 상회한다.
  • 반복 계산은 추상적 시각 추론에서 네트워크 폭을 늘리는 것보다 더 효율적인 확장 축을 제공한다.
  • 예측 엔트로피를 기반으로 한 다이내믹 Exit가 평균 컴퓨트를 줄이면서 작업 전반에서 정확도를 유지하거나 향상시킨다.
  • 하이브리드 블록 설계(DW-Conv + MHSA)는 일반적인 트랜스포머를 지속적으로 능가하는 경향을 보이며, 지역적 공간 선행의 중요성을 시사한다.
  • Loop-ViT는 피드포워드 베이스라인에 비해 정확도-계산-매개변수의 파레토 프런티어가 유리하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.