QUICK REVIEW

[論文レビュー] Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Shaked Perek, Ben Wiesel|arXiv (Cornell University)|Mar 19, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

SCALe-SFTを導入。予定された長さに依存しない損失で監督付きファインチューニング中の推論と回答トークンのバランスを取り、精度を向上させ不正な出力を減少させ、GRPO強化学習と相乗効果を生む。

ABSTRACT

Multimodal reasoning in vision-language models (VLMs) typically relies on a two-stage process: supervised fine-tuning (SFT) and reinforcement learning (RL). In standard SFT, all tokens contribute equally to the loss, even though reasoning data are inherently token-imbalanced. Long traces overshadow short but task-critical segments, leading to verbose reasoning and inaccurate answers. We propose SCALe (Scheduled Curriculum Adaptive Loss), which explicitly separates supervision over reasoning and answer segments using dynamic, length-independent weighting. Unlike vanilla SFT, which overweights the segment, SCALe-SFT gradually shifts the focus from to throughout training via a cosine scheduling policy, encouraging concise and well-grounded reasoning. We evaluate SCALe across diverse benchmarks and architectures. Results show that SCALe consistently improves accuracy over vanilla SFT and matches the performance of the full two-phase SFT + GRPO pipeline while requiring only about one-seventh of the training time, making it a lightweight yet effective alternative. When combined with GRPO, SCALe achieves the best overall performance, highlighting its value both as a standalone method and as a strong foundation for reinforcement refinement.

研究の動機と目的

標準の監督付きファインチューニングで長い推論セグメントが損失信号を支配する不均衡を特定する。
<think>と<answer>のトークンを独立して時系列的に重みづけする動的でセグメント認識的な損失（SCALe-SFT）を開発する。
SCALe-SFTが複数のVLMアーキテクチャ全体で推論の整合性と最終回答の精度を改善することを実証する。
SCALe-SFTがGRPO強化学習の軽量な代替または強力な初期化として機能することを示す。
SCALe-SFTが生成中の不正確または不完全な出力を減らす証拠を提供する。

提案手法

セグメントごと（推論セグメント vs 回答セグメント）に属するトークンの平均クロスエントロピーをL_segとして定義し、長さバイアスを回避する。
出力を<think>…</think>と<answer>…</answer>に分割し、</think>を後続の<answer>とまとめて終端推論を抑制する。
トレーニングステップに合わせてコサインアニュリングスケジュールを適用し、初期は推論を促進し後半で回答の正確性を高める。
全体損失L = w_t L_think + w_a L_answerを、時間依存的な重みw(τ) = w(end) + 0.5 (w(start) - w(end)) (1 + cos(π τ / T))で表す。
任意でGRPOフェーズを組み込み、二部の報酬（タグ配置と回答の正確一致）で推論構造と事実的正確性を精練する。
Vision-R1フレームワーク内でScienceQAとIconQAを3モデル（推論機能を備えたものと備えていないものを含む）で評価し、ベースのSFTおよびGRPOと比較する。

Figure 1 : Scheduled Curriculum Adaptive Loss progression over training time vs vanilla SFT. In standard SFT, the <think> portion dominates the output compared to short answer segments (upper panel). SFT applies uniform token weights, making the loss skewed towards the extended reasoning segment (lo

実験結果

リサーチクエスチョン

RQ1長さに依存しないセグメント認識の損失は、従来のSFTと比較して推論-回答の整合性を改善するか？
RQ2SCALe-SFTは多様なVLMアーキテクチャで不正な出力を減らし最終回答の精度を向上させるか？
RQ3初期化としてSCALe-SFTを用いた場合、後続のGRPO強化 refinementとどのように相互作用するか？
RQ4ダイナミックウェイトが必須か、それとも固定ウェイトで同等の効果が得られるか？

主な発見

SCALe-SFTは複数のモデルとデータセットでベースのSFTより一貫して精度を向上させる（SFT時点で最大3%、GRPO後には最大5%）。
SCALe-SFTはベースのSFTからGRPOを初期化した場合より優れている設定が多く見られる。
SCALe-GRPOは全体的な性能が最も高く、モデル/データセットによっては最大5.4%の向上。
SCALe-SFTは推論の終了を妨げる、またはタグの誤配置による不正な生成を大幅に減らす（設定とデータセットにより0.32%–4.76%）。
アブレーションによりスケジューリングが有益であることが示され、固定ウェイト（FW）はSCALe-SFTより小さな改善しか得られない。
SCALeは完全な強化学習パイプラインの代替として、SFT中の推論構造と最終回答の整合性を高める軽量かつ有効な方法を提供する。

Figure 2 : Reasoning output from Qwen2.5, from HF test set lmms-lab/ICON-QA dataset. Blue (left) box is reasoning from vanilla-SFT. Orange (right) box is SCALe-SFT reasoning. Vanilla SFT counts the number of cars wrong.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。