Skip to main content
QUICK REVIEW

[論文レビュー] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Niccolo Avogaro, Nayanika Debnath|arXiv (Cornell University)|Feb 6, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

SPARCは視覚と言語モデルの知覚と推論を分離することで、関連領域を局所化してから推論を行うことでテスト時のスケーリングを実現し、バックボーンを再訓練せずに効率と精度を向上させます。

ABSTRACT

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the $V^*$ VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200$ imes$ lower token budget.

研究の動機と目的

  • 知覚処理と推論を分離することでVLMのテスト時スケーリングを動機づける。
  • 推論前に質問に関連する画像領域を局所化する2段階パイプラインを実証する。
  • 知覚をモジュール化して独立して訓練・効率化できることを示す。
  • 非対称な計算割り当てが様々な条件下での堅牢性を向上させることを証明する。
  • IRD駆動の切り抜きがトークン予算を削減しつつ精度を維持または向上できることを示す。

提案手法

  • 2段階 prompting:最初に領域座標を出力する(Implicit Relevance Detection, IRD);2段階目の prompting は切り抜きを用いて最終回答を作成(Perceptual Reasoning)。
  • 知覚と推論をデカップルにして独立した最適化と文脈効率の良い処理を可能にする。
  • 自己整合性と切り抜き統合(Weighted Boxes Fusion, WBF)を用いて複数のIRDロールアウトを統合する。
  • ステージ間で視覚的KVキャッシュを共有し、計算を削減しコンテキストを切り詰め、テスト時のスケーリングを実現する。
  • IRD付きデータで合成IRD注釈データを用いた軽量な知覚LoRAアダプタを訓練し、推論を損なうことなく局在化を改善する。
Figure 1 : Overview of the SPARC framework. We decouple the VLM inference process into two distinct functional circuits. Stage 1 (Perception): The What and Where Circuits perform Implicit Relevance Detection (IRD), taking the image and question as input to output relevant crop coordinates (e.g., loc
Figure 1 : Overview of the SPARC framework. We decouple the VLM inference process into two distinct functional circuits. Stage 1 (Perception): The What and Where Circuits perform Implicit Relevance Detection (IRD), taking the image and question as input to output relevant crop coordinates (e.g., loc

実験結果

リサーチクエスチョン

  • RQ12段階のSPARCパイプラインはモノリシック prompting よりも視覚トークンを少なくしてVLMの性能を向上させることができるか?
  • RQ2知覚と推論を分離して知覚へ非対称な計算割り当てを可能にすると推論品質を低下させずに済むか?
  • RQ3IRDベースの切り抜きはドメイン内外のビジュアルタスクで精度にどう影響するか?
  • RQ4LoRAによる軽量な知覚微調整はIRdを向上させ、推論能力を害さないか?
  • RQ5WBFによる切り抜き統合が下流のVQA精度を安定化・向上させる役割は何か?

主な発見

  • SPARCはモノリシックベースラインやthinking-with-imagesアプローチと比較してVQA風の精度を向上させる。
  • KVキャッシュを共有し高解像度領域を切り抜くことでトークン予算を削減し、テスト時のスケーリングを実現。
  • WBFによる自己整合的な知覚ロールアウトは、下流の計算の増分をサブリニアに抑えつつ精度を向上させる。
  • 低解像度データでのLoRAを用いた知覚訓練は一貫した利益を生み、正則化効果が示唆される。
  • SPARCはOODシナリオ(例:XLRSリモートセンシング)で最大200×のトークン予算削減にもかかわらず性能向上を達成する。
  • V*およびHRBenchベンチマークでは、IDおよびOOD設定でSPARCがネイティブおよび思考付き画像ベースのベースラインを上回る。
Figure 2 : The plot shows downstream reasoning accuracy against the crop overlap ratio. While performance generally degrades as overlap decreases, this effect is most pronounced for lower resolutions. Crucially, at high overlap ratios, the 256px model converges to the performance of the full-resolut
Figure 2 : The plot shows downstream reasoning accuracy against the crop overlap ratio. While performance generally degrades as overlap decreases, this effect is most pronounced for lower resolutions. Crucially, at high overlap ratios, the 256px model converges to the performance of the full-resolut

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。