[논문 리뷰] LoopViT: Scaling Visual ARC with Looped Transformers
LoopViT는 가중치 결합 루프 비전 트랜스포머에 동적 엔트로피 기반 종료를 도입하여 반복적 시각 추론을 수행하며, 대형 피드포워드 모델보다 훨씬 적은 매개변수로 강력한 ARC-AGI 성능을 달성합니다.
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
연구 동기 및 목표
- 시각적 추론은 더 깊거나 넓은 네트워크뿐만 아니라 반복적(루프) 네트워크의 이점이 있음을 제안한다.
- 가중치 결합 순환으로 추론 깊이를 매개변수 수와 분리하는 Loop-ViT를 제안한다.
- ARC 스타일 변환을 위한 지역적 합성곱과 전역 자기 주의(attention)를 결합한 하이브리드 블록을 설계한다.
- 예측 엔트로피에 기반한 매개변수 없는 다이내믹 Exit를 도입해 작업 과제에 따라 계산을 적응적으로 조정한다.
제안 방법
- 가중치 결합을 가진 단일 코어 트렁크를 T 반복으로 펼치는 전역 순환 아키텍처를 정의한다.
- RoPE를 사용한 다중-head 자기 주의와 깊이별 합성곱 FFN을 결합한 하이브리드 인코더 블록을 구현한다.
- 합성곱으로 이미지 토큰을 처리하고 과제 토큰은 공간 연산자를 우회하도록 이질적 ConvGLU FFN을 개발한다.
- 재귀 처리의 안정성을 위한 RMSNorm을 적용하고 예측이 결정될 때 추론을 중단하는 엔트로피 기반 다이내믹 Exit를 사용한다.
- 고정된 깊이로 오프라인 훈련하여 견고한 전이 규칙을 학습하고, 이후 테스트 시 특정 작업에 맞춘 미세 조정을 테스트 타임 트레이닝(TTT)으로 수행한다.
실험 결과
연구 질문
- RQ1루프형, 가중치 결합 순환이 ARC-AGI와 같은 시각 추론 과제에서 피드 포워드 비전 트랜스포머와 맞먹거나 능가할 수 있는가?
- RQ2반복 계산이 모델 크기 확장보다 더 나은 정확도-계산-매개변수 트레이드오프를 제공하는가?
- RQ3지역적(합성곱) 및 전역적(주목) 귀납 편향이 ARC 스타일 변환 해결에 어떻게 기여하는가?
- RQ4엔트로피 기반의 다이내믹 Exit가 추가 매개변수 없이 적응적 사고 시간을 가능하게 하는가?
- RQ5Loop-ViT의 루프 단계 간 주의(attention) 및 예측의 역학은 어떠한가?
주요 결과
| 모델 | #매개변수 | ARC-AGI-1 | ARC-AGI-2 |
|---|---|---|---|
| Deepseek-R1 | 671B | 15.8 | 1.3 |
| Claude 3.7 8k | N/A | 21.2 | 0.9 |
| o3-mini-high | N/A | 34.5 | 3.0 |
| GPT-5 | N/A | 44.0 | 1.9 |
| Grok-4-thinking | 1.7T | 66.7 | 16.0 |
| Bespoke (Grok-4) | 1.7T | 79.6 | 29.4 |
| VARC | 18M | 54.5 | 8.3 |
| VARC (ensemble) | 73M | 60.4 | 11.1 |
| Loop-ViT (Small) | 3.8M | 60.1 | 10.0 |
| Loop-ViT (Medium) | 11.2M | 63.8 | 11.5 |
| Loop-ViT (Large) | 18M | 65.8 | 14.2 |
- Loop-ViT는 ARC-1에서 18M 매개변수로 65.8%를 달성하여 73M 매개변수 VARC 앙상블보다 우수하다.
- 더 작은 3.8M 매개변수 Loop-ViT가 ARC-1에서 60.1%를 달성, 18M VARC 기준선의 54.5%를 상회한다.
- 반복 계산은 추상적 시각 추론에서 네트워크 폭을 늘리는 것보다 더 효율적인 확장 축을 제공한다.
- 예측 엔트로피를 기반으로 한 다이내믹 Exit가 평균 컴퓨트를 줄이면서 작업 전반에서 정확도를 유지하거나 향상시킨다.
- 하이브리드 블록 설계(DW-Conv + MHSA)는 일반적인 트랜스포머를 지속적으로 능가하는 경향을 보이며, 지역적 공간 선행의 중요성을 시사한다.
- Loop-ViT는 피드포워드 베이스라인에 비해 정확도-계산-매개변수의 파레토 프런티어가 유리하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.