[論文レビュー] Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
Video-TwG は、マルチターン推論中にオンデマンド grounding を使用して query に関連する動画クリップへズームする think-with-grounding フレームワークを導入。2 段階カリキュラムと TwG-GRPO 報酬で訓練され、 heavy supervision なしで強力な LVU 結果を達成。
Long video understanding is challenging due to rich and complicated multimodal clues in long temporal range.Current methods adopt reasoning to improve the model's ability to analyze complex video clues in long videos via text-form reasoning.However,the existing literature suffers from the fact that the text-only reasoning under fixed video context may exacerbate hallucinations since detailed crucial clues are often ignored under limited video context length due to the temporal redundancy of long videos.To address this gap,we propose Video-TwG,a curriculum reinforced framework that employs a novel Think-with-Grounding paradigm,enabling video LLMs to actively decide when to perform on-demand grounding during interleaved text-video reasoning, selectively zooming into question-relevant clips only when necessary.Video-TwG can be trained end-to-end in a straightforward manner, without relying on complex auxiliary modules or heavily annotated reasoning tracesIn detail,we design a Two-stage Reinforced Curriculum Strategy, where the model first learns think-with-grounding behavior on a small short-video GQA dataset with grounding labels,and then scales to diverse general QA data with videos of diverse domains to encourage generalization. Further, to handle complex think-with-grounding reasoning for various kinds of data,we propose TwG-GRPO algorithm which features the fine-grained grounding reward, self-confirmed pseudo reward and accuracy-gated mechanism.Finally,we propose to construct a new TwG-51K dataset that facilitates training. Experiments on Video-MME, LongVideoBench, and MLVU show that Video-TwG consistently outperforms strong LVU baselines.Further ablation validates the necessity of our Two-stage Reinforced Curriculum Strategy and shows our TwG-GRPO better leverages diverse unlabeled data to improve grounding quality and reduce redundant groundings without sacrificing QA performance.
研究の動機と目的
- テキストのみの推論が固定された動画コンテキストで抱える欠点を克服し、 robust な長時間動画理解を動機付ける。
- 推論中に grounding アクションが選択的に関連動画クリップへズームする think-with-grounding パラダイムを提案する。
- 短い grounding データから多様な長時間動画 QA シナリオへモデルを訓練する二段階の強化カリキュラム戦略を開発する。
- fine-grained および pseudo 報酬と精度ゲート機構を組み込んだ grounding-aware 強化学習アルゴリズム TwG-GRPO を導入する。
- TwG-51K データセットを作成し、grounded データと unlabeled データを組み合わせて訓練と一般化を支援する。
提案手法
- モデルが思考ステップ、 grounding アクション(開始フレーム/終了フレーム)、回答を複数ターンにわたって出力する、 multi-turn think-with-grounding プロセスを定義する。
- 2 段階カリキュラムを実装する:第1段階は grounding ラベル付きの短尺動画 GQA データで訓練、第2段階はラベルなしの多様な動画 QA データへ拡張する。
- TwG-GRPO を提案する。これは軌跡レベルの報酬を含む GRPO ベースの RL アルゴリズムで、細粒度 grounding 報酬、自己確認型疑似報酬、 grounding と QA 正確性のバランスを取る精度ゲート機構を備える。
- 初期推論用には粗粒度の動画表現を、 grounding セグメントには細粒度クリップを用い、 grounding フレームを初期の動画フレームに対応づける。
- 訓練と一般化を支援するために TwG-51K データセットを構築する(50,744 件の MC サンプル中 8,195 件に grounding アノテーション)。
実験結果
リサーチクエスチョン
- RQ1ダイナミックなオンデマンド grounding は、固定動画コンテキストでのテキストのみ推論と比較して長時間動画理解をどの程度改善できるか。
- RQ2Two-stage reinforced curriculum は LVU における think-with-grounding の学習安定性と一般化を改善するか。
- RQ3TwG-GRPO はラベル付き grounding データと unlabeled QA データの両方を効果的に活用して grounding 品質と QA 正確性を改善できるか。
- RQ4多粒度の動画表現と grounding アクションが長時間動画 QA の性能にどのような影響を与えるか。
- RQ5Video-TwG は Video-MME、LongVideoBench、MLVU などのベンチマークで強力な LVU ベースラインと比較してどの程度の性能を示すか。
主な発見
- Video-TwG は Video-MME、LongVideoBench、MLVU の全てのベンチマークで一貫して強力な LVU ベースラインを上回る。
- LR 入力時、Video-TwG(LR) は Video-MME の全体正確度を 7.0 ポイント、他の指標で 5.8–7.1 ポイント向上; HR 入力時にはベンチマークに応じて 2.5–5.0 ポイントの改善。
- Two-stage Reinforced Curriculum Strategy の必須性をアブレーションで確認し、TwG-GRPO がラベルなしデータから grounding 学習を助けつつ QA パフォーマンスを保つことを示した。
- grounding 報酬(ソフト IoU ベースとハード IoU ベースの両方)と自己確認型疑似報酬は grounding アクションを効果的に導き、回答を損なわずに不要な grounding を減らす。
- Qwen2.5-VL-7B と比較して、Video-TwG は長時間動画タスクで実質的な向上を達成しており、特に低資源設定で訓練パラダイムが主な利得源であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。