[논문 리뷰] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
SPARC는 시각-언어 모델에서 지각과 추론을 분리하여 테스트 시 확장을 가능하게 하며, 관련 이미지 영역을 먼저 로컬라이즈한 뒤 해당 크롭에 대해 추론함으로써 백본 재훈련 없이 효율성과 정확성을 개선한다.
Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the $V^*$ VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200$ imes$ lower token budget.
연구 동기 및 목표
- 지각 처리와 추론을 분리하여 VLM의 테스트 시 스케일링을 촉진한다.
- 질문과 관련된 이미지 영역을 추론 전에 로컬라이즈하는 두 단계 파이프라인을 시연한다.
- 모듈식 지각이 독립적으로 학습되고 효율성을 위해 최적화될 수 있음을 보인다.
- 비대칭 컴퓨트 배분이 다양한 조건에서 견고성을 향상시킨다는 것을 증명한다.
- IRD 기반 크롭이 정확도를 유지하거나 향상시키면서 토큰 예산을 줄일 수 있음을 증거로 제시한다.
제안 방법
- 두 단계 프롬프트: 먼저 영역 좌표를 출력한다(암시적 관련 탐지, IRD); 두 번째 프롬프트는 크롭을 사용해 최종 답변을 산출한다(지각적 추론).
- 지각과 추론을 분리하여 독립적 최적화와 맥락 효율적 처리를 가능하게 한다.
- 자기 일관성과 크롭 통합(가중 박스 융합)을 사용해 여러 IRD 롤아웃을 융합한다.
- 단계 간 시각적 KV 캐시를 공유해 연산을 줄이고 컨텍스트를 잘라내어 테스트 시 확장을 가능하게 한다.
- 합성 IRD 주석 데이터로 IRD에서 경량 지각 LoRA 어댑터를 학습시켜 추론에 해를 주지 않으면서 로컬라이제이션을 개선한다.

실험 결과
연구 질문
- RQ1일원형 프롬프트보다 적은 시각 토큰으로도 두 단계 SPARC 파이프라인이 VLM 성능을 향상시킬 수 있는가?
- RQ2지각과 추론을 분리하면 추론 품질을 저하시키지 않으면서 지각에 비대칭 컴퓨트 배치를 가능하게 하는가?
- RQ3IRD 기반 크로핑이 도메인 내외의 시각 작업에서 정확도에 어떤 영향을 미치는가?
- RQ4LoRA를 통한 경량 지각 미세조정이 IRD를 개선하되 추론 능력에 해를 주지 않는가?
- RQ5크롭 융합(WBF)이 하위 VQA 정확도를 안정화하고 향상시키는 역할은 무엇인가?
주요 결과
- SPARC은 모놀리식 기준선과 이미지와 함께 생각하기 방법에 비해 벤치마크 전반에서 VQA 스타일 정확도를 향상시킨다.
- KV 캐시 공유와 고해상도 크롭 영역 사용으로 테스트 시 확장을 달성하여 토큰 예산을 줄인다.
- 자기 일관성 지각 롤아웃은 WBF로 다운스트림 연산 증가가 거의 선형이 아닌 방식으로 정확도를 개선한다.
- LoRA를 통한 저해상도 데이터로의 지각 학습은 일관된 이득을 주며 규제 효과를 시사한다.
- 일부 OOD 시나리오(예: XLRS 원격 탐지)에서 토큰 예산을 최대 200배까지 낮추고 성능 향상을 달성한다.
- V* 및 HRBench 벤치마크에서 SPARC은 ID 및 OOD 설정에서 네이티브 및 이미지와 함께 생각하기 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.