[論文レビュー] V-Zero: Self-Improving Multimodal Reasoning with Zero Annotation
V-Zero は未ラベル画像を用いた Questioner と Solver のゼロアノテーション自己改善ループを構築し、人手データなしでビジョン言語推論の性能を向上させる。
Recent advances in multimodal learning have significantly enhanced the reasoning capabilities of vision-language models (VLMs). However, state-of-the-art approaches rely heavily on large-scale human-annotated datasets, which are costly and time-consuming to acquire. To overcome this limitation, we introduce V-Zero, a general post-training framework that facilitates self-improvement using exclusively unlabeled images. V-Zero establishes a co-evolutionary loop by instantiating two distinct roles: a Questioner and a Solver. The Questioner learns to synthesize high-quality, challenging questions by leveraging a dual-track reasoning reward that contrasts intuitive guesses with reasoned results. The Solver is optimized using pseudo-labels derived from majority voting over its own sampled responses. Both roles are trained iteratively via Group Relative Policy Optimization (GRPO), driving a cycle of mutual enhancement. Remarkably, without a single human annotation, V-Zero achieves consistent performance gains on Qwen2.5-VL-7B-Instruct, improving visual mathematical reasoning by +1.7 and general vision-centric by +2.6, demonstrating the potential of self-improvement in multimodal systems. Code is available at https://github.com/SatonoDia/V-Zero
研究の動機と目的
- マルチモーダル推論のために高価な人手アノテーションデータへの依存を減らす動機づけ。
- 生画像上で動作するゼロアノテーションのポストトレーニング枠組みを提案。
- 内部報酬で最適化された共進化的 Questioner-Solver ループを設計。
- 自己生成信号が監視付きベースラインを超える多様なベンチマークを示すことを示す。
提案手法
- 同一の基盤 VLM から二つの役割をインスタンス化:Questioner (Q) と Solver (S)。
- Q は直感的な回答を伴う画像条件付き MCQ を生成し;S はサンプル上での多数決を通じた推論ベースの疑似ラベルを提供。
- Dual-Track Reasoning Reward を用いて 直感と推論のギャップを露呈させる質問を奨励。
- ゼロアノテーションループで GRPO (Group Relative Policy Optimization) により Q と S を訓練。
- Solver の RLVR(難易度ガイド付きデータサンプリングと検証可能な RL 報酬)を適用。
- VLMEvalKit ベンチマークで一般的な視覚中心タスクと数学的推論タスクを評価。

実験結果
リサーチクエスチョン
- RQ1人手でアノテーションされたデータを全く使わずに、ビジョン言語モデルは推論を改善できるか。
- RQ2共進化的 Questioner-Solver ループは監視付きベースラインを超える測定可能な向上をもたらすか。
- RQ3デュアルトラック報酬と難易度ガイド付きサンプリングは自己改善を促進するうえでどれだけ有効か。
- RQ4幾何学中心データからの改善はより広い視覚中心タスクへ移行可能か。
主な発見
- V-Zero は外部の監督なしで基盤モデルを一貫して改善する。
- Qwen2.5-VL-7B-Instruct ではIteration 2 で平均点が 49.9 から 51.9 (+2.0) に改善。
- MMM U や MathVerse では 7B モデルでそれぞれ +3.9 点と +3.0 点の利得。
- 3B モデルでは Iteration 1 が 平均 +0.7 点のピークを達成し、MMM U および MathVision で notable な改善。
- 7B スケールの Supervised GRPO ベースライン(人手アノテーションデータで訓練)を上回り、平均 51.9 対 50.8。
- アブレーションでは Questioner の除去、デュアルトラック報酬の除去、データフィルタリングの削除がパフォーマンスを大幅に低下させることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。