Skip to main content
QUICK REVIEW

[論文レビュー] To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Haoqing Wang, Xiang Long|arXiv (Cornell University)|Feb 13, 2026
Topic Modeling被引用数 0
ひとこと要約

論文は混合マルチタスクRLVRを、複数ドメインのLLMのためのセパレートなドメインRLVRとモデルマージを比較し、混合トレーニングがマージと競合可能であり、クロスドメインのシナジーを生むことを示す。重みシフト、ポリシー近傍、検証モダリティの広範な分析を提供。

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, instruction following, and agent) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, information constraints, model prediction behavior and self-verification. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/Mosi-AI/M2RL.

研究の動機と目的

  • 複数ドメイン(数学、コーディング、科学、指示追従)にまたがる一般家たるエキスパート級LLMの必要性を動機づける。
  • 2つの支配的なマルチドメインRLVRパラダイム:混合マルチタスクRLVRと、分離ドメインRLVR後のモデルマージを評価する。
  • クロスドメインの利得を生む内部機構—重み空間の幾何、予測挙動、情報制約—を分析する。
  • トレーニング効率(GPU時間)と各ドメインのベンチマーク精度のトレードオフを定量化する。

提案手法

  • GRPO(Group Relative Policy Optimization)を学習アルゴリズムとして用い、RLVRを適用する。
  • 4つのターゲットドメイン(数学、コーディング、科学、指示追従)を構築し、各ドメインにNemotronベースのSFTとRLVRデータセットを使用する。
  • 混合マルチタスクRLVRを、重みマージ(平均、タスク演算、TIESマージ、SCE)付きの分離ドメインRLVRおよびMT-OPD(多教師オンポリシー蒸留)と比較する。
  • オープンソースの監督付きファインチューニング(SFT)とRLVRのデータを活用し、起点モデルとしてQwen3-4B-Baseを使用する。9ベンチマークでAvg@Kを報告する。
  • マージ手法とマルチタスクRLVRを、AIME’24/’25、LiveCodeBench v5/v6、HLE、GPQA-Diamond、IFEval、IFBench、MMLU-Reduxなどの複数ベンチマークで評価する。
  • 内部機構を調査する:重み移動のオーバーラップ、射影後の移動重みのコサイン類似、KL発散の挙動、ポリシー近傍の影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1混合マルチタスクRLVRは、複数ドメインにわたって分離RLVR+マージと同等の性能を実現するか。
  • RQ2クロスドメインの干渉がどの程度存在し、推論集中的なドメイン間で相乗効果が生じるか。
  • RQ3重み空間の変化とポリシー分布は、マルチドメインRLVRにおける跨ドメインの利得をどう媒介するか。
  • RQ4異なるマージ手法(平均、タスク演算、TIES、SCE、MT-OPD)がクロスドメイン性能に与える影響は。
  • RQ5検証モダリティ(アウトカムベース vs プロセスベース)は、マルチドメインRLVR戦略とドメイン特性とどう相互作用するか。

主な発見

BenchmarksQwen3-4B-BaseSFTRL-MathRL-CodingRL-ScienceRL-IFModel MergingRL-Multi
AIME’249.6554.9071.5160.7863.6564.0671.6773.85
AIME’255.6851.3063.5455.5757.1961.6766.7264.11
LiveCodeBench v5 (Coding)16.5051.2756.9959.4058.7559.0957.8059.77
LiveCodeBench v6 (Coding)18.2953.4353.7155.4354.5755.4353.1456.57
HLE (Science)4.455.245.936.025.286.266.025.84
GPQA-Diamond (Science)20.0846.0956.8249.1256.1949.3756.1953.66
IFEvalstrict prompt (IF)35.1279.4883.1881.3381.5188.1789.8390.34
IFBench (IF)11.9038.4440.1439.8038.1056.1253.7455.78
MMLU-Redux (General)30.9179.0580.1479.8877.9380.2379.9180.00
  • 混合マルチタスクRLVRは、マージ付きの分離RLVRと同等の性能を、GPU時間の約33.2%程度で達成する。
  • クロスドメインRLVRはタスク間干渉が最小で、推論を要するドメインで相乗効果を示す。
  • ドメイン間での重み移動の痕跡は大きく重なり、射影後の正のコサイン類似を示し、共通の適応領域を示唆する。
  • マージされた/マルチドメインのポリシーとドメイン専門家のKL発散は、必ずしも性能低下を厳密に予測せず、近傍ポリシーの転送がドメインポリシーを最適ポリシーへと形作る。
  • モデルマージは単一タスクモデルの能力を継承する傾向がある一方で、多タスク訓練は単一タスク訓練と異なる、より広範な新興能力を生み出す。
  • RLVRは自己識別能力とクロスドメインのシナジーを誘発し、多タスクRLVRは成果とプロセス判断の両方を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。