[論文レビュー] CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation
Cashew は explicit な 視覚検証を伴う 複数候補推論経路の反復的な集約を通じて多モーダル推論を安定化する;Cashew-RL は GSPO ベースのポスト訓練によってこの集約を内部化し、頑健で視覚 grounded な推論を実現する。
Vision-language models achieve strong performance across a wide range of multimodal understanding and reasoning tasks, yet their multi-step reasoning remains unstable. Repeated sampling over the same input often produces divergent reasoning trajectories and inconsistent final predictions. To address this, we introduce two complementary approaches inspired by test-time scaling: (1) CASHEW, an inference-time framework that stabilizes reasoning by iteratively aggregating multiple candidate trajectories into higher-quality reasoning traces, with explicit visual verification filtering hallucinated steps and grounding reasoning in visual evidence, and (2) CASHEW-RL, a learned variant that internalizes this aggregation behavior within a single model. CASHEW-RL is trained using Group Sequence Policy Optimization (GSPO) with a composite reward that encourages correct answers grounded in minimal yet sufficient visual evidence, while adaptively allocating reasoning effort based on task difficulty. This training objective enables robust self-aggregation at inference. Extensive experiments on 13 image understanding, video understanding, and video reasoning benchmarks show significant performance improvements, including gains of up to +23.6 percentage points on ScienceQA and +8.1 percentage points on EgoSchema.
研究の動機と目的
- 単一路線推論を超えた多モーダル推論における安定性と grounding の改善を動機づける。
- 視覚検証を用いて複数の推論 traces を集約する推論時パイプラインを提案し、幻覚をフィルタリングする。
- 訓練後の強化学習を用いて集約を内部化する Cashew-RL を提案する。
- 精度と grounding の向上を定量化するため 13 の画像/動画ベンチマークで評価する。
提案手法
- Cashew は frozen Vision-Language モデルから N 個の候補経路の集団を初期化する。
- 各反復で、 peer 経路の subset をサンプリングして参照として S_i^(t) を形成する。
- Reasoning で言及される対象物を Grounding DINO により grounding し、検証済み視覚証拠 V_j^(t) を取得する。
- 推論テキストと検証済み証拠の両方に基づいて後続の経路生成を条件付けし、tau_i^(t+1) を生成する。
- T 回の反復の後、経路を統合して証拠に grounded した最終集約 tau^* を得る。
- Cashew-RL は SFT( supervised fine-tuning )と強化学習(GSPO)を用いたポスト訓練段階を追加し、正確性・証拠 grounding・適応長を含む複合報酬で集約ポリシー pi_theta を訓練する。

実験結果
リサーチクエスチョン
- RQ1反復的で視覚 grounding を備えた集約は、画像・動画タスクにおける多モーダル推論の安定性と正確性を向上させるか。
- RQ2Cashew-RL は集約を内部化して test-time sampling への依存を減らすことができるか。
- RQ3Cashew は他の test-time scaling ベースラインと比較して精度と grounding の点でどう位置づけられるか。
- RQ4集約の深さとタスク難易度が推論の効率性と精度に与える影響は何か。
主な発見
- Cashew は画像ベンチマークで顕著な向上をもたらし、ScienceQA で最大 +23.6 ポイントの向上を示す。
- Cashew は video ベンチマークでも backbone を問わず一貫した改善を提供し、 EgoSchema および NExT-QA を含む。
- Cashew-RL(T=1)は既存ベースラインより既に改善を示し、T=3 ではより大きく統計的に有意な gains を達成。
- Cashew は自己整合性、自己セレクタ、自己合成器などの最先端の test-time scaling ベースラインを複数タスクで上回る。
- GSPO ベースの訓練により、タスク難易度に適応した推論長さと grounding を伴う頑健な集約が可能になる。
- 重要な向上が報告されており、EgoSchema で最大 +8.1 ポイント、ScienceQA や MME でも複数 backbone で顕著な改善を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。