[論文レビュー] Entropy-Guided Data-Efficient Training for Multimodal Reasoning Reward Models
要約: 本論文は、応答エントロピーをデータの curate と easy-to-hard カリキュラムで利用する、マルチモーダル推論報酬モデルのデータ効率を高めるエントロピー誘導トレーニング(EGT)を提案し、データ需要を削減しつつ最先端性能を向上させる。
Multimodal reward models are crucial for aligning multimodal large language models with human preferences. Recent works have incorporated reasoning capabilities into these models, achieving promising results. However, training these models suffers from two critical challenges: (1) the inherent noise in preference datasets, which degrades model performance, and (2) the inefficiency of conventional training methods, which ignore the differences in sample difficulty. In this paper, we identify a strong correlation between response entropy and accuracy, indicating that entropy can serve as a reliable and unsupervised proxy for annotation noise and sample difficulty. Based on this insight, we propose a novel Entropy-Guided Training (EGT) approach for multimodal reasoning reward models, which combines two strategies: (1) entropy-guided data curation to mitigate the impact of unreliable samples, and (2) an entropy-guided training strategy that progressively introduces more complex examples. Extensive experiments across three benchmarks show that the EGT-trained model consistently outperforms state-of-the-art multimodal reward models.
研究の動機と目的
- マルチモーダル報酬モデル訓練におけるサンプル難易度とアノテーションノイズの代理指標としてエントロピーを同定する。
- エントロピーに基づくデータキュレーションと漸進的トレーニングカリキュラムを組み合わせたエントロピー誘導トレーニング(EGT)を提案する。
- 3つのマルチモーダル報酬ベンチマークでEGTの最先端性能を実証する。
- 小規模なキュレーションサブセットで強い結果を達成することによるデータ効率の利点を示す。
提案手法
- 指示調整のための高品質な推論軌跡を生成して精練されたSFTデータセットを形成する。
- 回答トークンエントロピーと推論文エントロピーをデータ品質の代理指標として用いて応答エントロピーを計算する。
- 高エントロピーサンプルを剪定してRLベースの訓練用キュレーションデータを作成する。
- 強化学習において低〜高エントロピーのカリキュラムで訓練し、徐々に難しい例に対処する。
- エントロピーに基づくランキングと、精度・論理・形式項を組み合わせた複合報酬関数を活用する。
- 3つのマルチモーダル報酬ベンチマークで評価し、構成要素を検証するためのアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1マルチモーダル報酬データセットにおいて応答エントロピーはサンプル難易度とアノテーションノイズの自己教師付き代理指標になり得るか。
- RQ2エントロピー誘導データキュレーションとカリキュラム訓練は、一様または精度ベースの方法よりも性能とデータ効率を向上させるか。
- RQ3データ剪定のエントロピー基準(特に回答トークンエントロピー)は文エントロピーや混合指標と比較してどうか。
- RQ4訓練データサイズとエントロピー水準がモデルの性能と堅牢性に与える影響はどうか。
主な発見
| Model | # Param | VL-Reward | Multimodal | MM-RLHF | Avg. | Avg. Gain |
|---|---|---|---|---|---|---|
| GPT-4o (2024-08-06) | – | 65.80 | 70.80 | 58.23 | 64.94 | – |
| Claude-3.7-Sonnet (2025-02-24) | – | 66.31 | 71.90 | 82.35 | 73.52 | ↑ 8.58 |
| SliME [24] | 7B | 19.04 | 42.00 | 17.10 | 26.05 | ↓ 38.89 |
| VITA-1.5 [5] | 7B | 16.48 | 53.60 | 20.58 | 30.22 | ↓ 34.72 |
| Qwen2-VL-72B [1] | 72B | 39.50 | 70.90 | 48.23 | 52.88 | ↓ 12.06 |
| MM-RLHF-Reward [26] | 7B | 50.15 | 67.10 | 82.00 | 66.42 | ↑ 1.48 |
| IXC-2.5-Reward [23] | 7B | 65.80 | 66.60 | 71.18 | 67.86 | ↑ 2.92 |
| R1-Reward [25] | 7B | 72.89 | 82.20 | 80.59 | 78.56 | ↑ 13.62 |
| EGT (Ours) | 7B | 77.15 | 84.30 | 85.88 | 82.44 | ↑ 17.50 |
- EGTは3つのマルチモーダル報酬ベンチマークで最先端性能を達成する。
- 2,500サンプルの低エントロピーサブセットだけで訓練しても、フルデータ訓練と比較して競争力のある結果を得られる。
- エントロピーはデータの難易度とノイズの信頼できる代理指標として機能し、効果的な剪定を可能にする。
- エントロピー基準の選択は、アブレーションでランダムおよび精度ベースのデータ選択戦略を上回る。
- 最も低エントロピーのデータが最高の性能を発揮し、高エントロピーのデータは学習を劣化させる可能性がある。
- 低〜高エントロピーのカリキュラムは最適化を安定化させ、データ効率を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。