Skip to main content
QUICK REVIEW

[논문 리뷰] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Niccolo Avogaro, Nayanika Debnath|arXiv (Cornell University)|2026. 02. 06.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

SPARC는 시각-언어 모델에서 지각과 추론을 분리하여 테스트 시 확장을 가능하게 하며, 관련 이미지 영역을 먼저 로컬라이즈한 뒤 해당 크롭에 대해 추론함으로써 백본 재훈련 없이 효율성과 정확성을 개선한다.

ABSTRACT

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the $V^*$ VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200$ imes$ lower token budget.

연구 동기 및 목표

  • 지각 처리와 추론을 분리하여 VLM의 테스트 시 스케일링을 촉진한다.
  • 질문과 관련된 이미지 영역을 추론 전에 로컬라이즈하는 두 단계 파이프라인을 시연한다.
  • 모듈식 지각이 독립적으로 학습되고 효율성을 위해 최적화될 수 있음을 보인다.
  • 비대칭 컴퓨트 배분이 다양한 조건에서 견고성을 향상시킨다는 것을 증명한다.
  • IRD 기반 크롭이 정확도를 유지하거나 향상시키면서 토큰 예산을 줄일 수 있음을 증거로 제시한다.

제안 방법

  • 두 단계 프롬프트: 먼저 영역 좌표를 출력한다(암시적 관련 탐지, IRD); 두 번째 프롬프트는 크롭을 사용해 최종 답변을 산출한다(지각적 추론).
  • 지각과 추론을 분리하여 독립적 최적화와 맥락 효율적 처리를 가능하게 한다.
  • 자기 일관성과 크롭 통합(가중 박스 융합)을 사용해 여러 IRD 롤아웃을 융합한다.
  • 단계 간 시각적 KV 캐시를 공유해 연산을 줄이고 컨텍스트를 잘라내어 테스트 시 확장을 가능하게 한다.
  • 합성 IRD 주석 데이터로 IRD에서 경량 지각 LoRA 어댑터를 학습시켜 추론에 해를 주지 않으면서 로컬라이제이션을 개선한다.
Figure 1 : Overview of the SPARC framework. We decouple the VLM inference process into two distinct functional circuits. Stage 1 (Perception): The What and Where Circuits perform Implicit Relevance Detection (IRD), taking the image and question as input to output relevant crop coordinates (e.g., loc
Figure 1 : Overview of the SPARC framework. We decouple the VLM inference process into two distinct functional circuits. Stage 1 (Perception): The What and Where Circuits perform Implicit Relevance Detection (IRD), taking the image and question as input to output relevant crop coordinates (e.g., loc

실험 결과

연구 질문

  • RQ1일원형 프롬프트보다 적은 시각 토큰으로도 두 단계 SPARC 파이프라인이 VLM 성능을 향상시킬 수 있는가?
  • RQ2지각과 추론을 분리하면 추론 품질을 저하시키지 않으면서 지각에 비대칭 컴퓨트 배치를 가능하게 하는가?
  • RQ3IRD 기반 크로핑이 도메인 내외의 시각 작업에서 정확도에 어떤 영향을 미치는가?
  • RQ4LoRA를 통한 경량 지각 미세조정이 IRD를 개선하되 추론 능력에 해를 주지 않는가?
  • RQ5크롭 융합(WBF)이 하위 VQA 정확도를 안정화하고 향상시키는 역할은 무엇인가?

주요 결과

  • SPARC은 모놀리식 기준선과 이미지와 함께 생각하기 방법에 비해 벤치마크 전반에서 VQA 스타일 정확도를 향상시킨다.
  • KV 캐시 공유와 고해상도 크롭 영역 사용으로 테스트 시 확장을 달성하여 토큰 예산을 줄인다.
  • 자기 일관성 지각 롤아웃은 WBF로 다운스트림 연산 증가가 거의 선형이 아닌 방식으로 정확도를 개선한다.
  • LoRA를 통한 저해상도 데이터로의 지각 학습은 일관된 이득을 주며 규제 효과를 시사한다.
  • 일부 OOD 시나리오(예: XLRS 원격 탐지)에서 토큰 예산을 최대 200배까지 낮추고 성능 향상을 달성한다.
  • V* 및 HRBench 벤치마크에서 SPARC은 ID 및 OOD 설정에서 네이티브 및 이미지와 함께 생각하기 베이스라인을 능가한다.
Figure 2 : The plot shows downstream reasoning accuracy against the crop overlap ratio. While performance generally degrades as overlap decreases, this effect is most pronounced for lower resolutions. Crucially, at high overlap ratios, the 256px model converges to the performance of the full-resolut
Figure 2 : The plot shows downstream reasoning accuracy against the crop overlap ratio. While performance generally degrades as overlap decreases, this effect is most pronounced for lower resolutions. Crucially, at high overlap ratios, the 256px model converges to the performance of the full-resolut

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.