[論文レビュー] To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
論文は混合マルチタスクRLVRを、複数ドメインのLLMのためのセパレートなドメインRLVRとモデルマージを比較し、混合トレーニングがマージと競合可能であり、クロスドメインのシナジーを生むことを示す。重みシフト、ポリシー近傍、検証モダリティの広範な分析を提供。
Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, instruction following, and agent) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, information constraints, model prediction behavior and self-verification. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/Mosi-AI/M2RL.
研究の動機と目的
- 複数ドメイン(数学、コーディング、科学、指示追従)にまたがる一般家たるエキスパート級LLMの必要性を動機づける。
- 2つの支配的なマルチドメインRLVRパラダイム:混合マルチタスクRLVRと、分離ドメインRLVR後のモデルマージを評価する。
- クロスドメインの利得を生む内部機構—重み空間の幾何、予測挙動、情報制約—を分析する。
- トレーニング効率(GPU時間)と各ドメインのベンチマーク精度のトレードオフを定量化する。
提案手法
- GRPO(Group Relative Policy Optimization)を学習アルゴリズムとして用い、RLVRを適用する。
- 4つのターゲットドメイン(数学、コーディング、科学、指示追従)を構築し、各ドメインにNemotronベースのSFTとRLVRデータセットを使用する。
- 混合マルチタスクRLVRを、重みマージ(平均、タスク演算、TIESマージ、SCE)付きの分離ドメインRLVRおよびMT-OPD(多教師オンポリシー蒸留)と比較する。
- オープンソースの監督付きファインチューニング(SFT)とRLVRのデータを活用し、起点モデルとしてQwen3-4B-Baseを使用する。9ベンチマークでAvg@Kを報告する。
- マージ手法とマルチタスクRLVRを、AIME’24/’25、LiveCodeBench v5/v6、HLE、GPQA-Diamond、IFEval、IFBench、MMLU-Reduxなどの複数ベンチマークで評価する。
- 内部機構を調査する:重み移動のオーバーラップ、射影後の移動重みのコサイン類似、KL発散の挙動、ポリシー近傍の影響を分析する。
実験結果
リサーチクエスチョン
- RQ1混合マルチタスクRLVRは、複数ドメインにわたって分離RLVR+マージと同等の性能を実現するか。
- RQ2クロスドメインの干渉がどの程度存在し、推論集中的なドメイン間で相乗効果が生じるか。
- RQ3重み空間の変化とポリシー分布は、マルチドメインRLVRにおける跨ドメインの利得をどう媒介するか。
- RQ4異なるマージ手法(平均、タスク演算、TIES、SCE、MT-OPD)がクロスドメイン性能に与える影響は。
- RQ5検証モダリティ(アウトカムベース vs プロセスベース)は、マルチドメインRLVR戦略とドメイン特性とどう相互作用するか。
主な発見
| Benchmarks | Qwen3-4B-Base | SFT | RL-Math | RL-Coding | RL-Science | RL-IF | Model Merging | RL-Multi |
|---|---|---|---|---|---|---|---|---|
| AIME’24 | 9.65 | 54.90 | 71.51 | 60.78 | 63.65 | 64.06 | 71.67 | 73.85 |
| AIME’25 | 5.68 | 51.30 | 63.54 | 55.57 | 57.19 | 61.67 | 66.72 | 64.11 |
| LiveCodeBench v5 (Coding) | 16.50 | 51.27 | 56.99 | 59.40 | 58.75 | 59.09 | 57.80 | 59.77 |
| LiveCodeBench v6 (Coding) | 18.29 | 53.43 | 53.71 | 55.43 | 54.57 | 55.43 | 53.14 | 56.57 |
| HLE (Science) | 4.45 | 5.24 | 5.93 | 6.02 | 5.28 | 6.26 | 6.02 | 5.84 |
| GPQA-Diamond (Science) | 20.08 | 46.09 | 56.82 | 49.12 | 56.19 | 49.37 | 56.19 | 53.66 |
| IFEvalstrict prompt (IF) | 35.12 | 79.48 | 83.18 | 81.33 | 81.51 | 88.17 | 89.83 | 90.34 |
| IFBench (IF) | 11.90 | 38.44 | 40.14 | 39.80 | 38.10 | 56.12 | 53.74 | 55.78 |
| MMLU-Redux (General) | 30.91 | 79.05 | 80.14 | 79.88 | 77.93 | 80.23 | 79.91 | 80.00 |
- 混合マルチタスクRLVRは、マージ付きの分離RLVRと同等の性能を、GPU時間の約33.2%程度で達成する。
- クロスドメインRLVRはタスク間干渉が最小で、推論を要するドメインで相乗効果を示す。
- ドメイン間での重み移動の痕跡は大きく重なり、射影後の正のコサイン類似を示し、共通の適応領域を示唆する。
- マージされた/マルチドメインのポリシーとドメイン専門家のKL発散は、必ずしも性能低下を厳密に予測せず、近傍ポリシーの転送がドメインポリシーを最適ポリシーへと形作る。
- モデルマージは単一タスクモデルの能力を継承する傾向がある一方で、多タスク訓練は単一タスク訓練と異なる、より広範な新興能力を生み出す。
- RLVRは自己識別能力とクロスドメインのシナジーを誘発し、多タスクRLVRは成果とプロセス判断の両方を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。