QUICK REVIEW

[論文レビュー] To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Haoqing Wang, Xiang Long|arXiv (Cornell University)|Feb 13, 2026

Topic Modeling被引用数 0

ひとこと要約

論文は混合マルチタスクRLVRを、複数ドメインのLLMのためのセパレートなドメインRLVRとモデルマージを比較し、混合トレーニングがマージと競合可能であり、クロスドメインのシナジーを生むことを示す。重みシフト、ポリシー近傍、検証モダリティの広範な分析を提供。

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, instruction following, and agent) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, information constraints, model prediction behavior and self-verification. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/Mosi-AI/M2RL.

研究の動機と目的

複数ドメイン（数学、コーディング、科学、指示追従）にまたがる一般家たるエキスパート級LLMの必要性を動機づける。
2つの支配的なマルチドメインRLVRパラダイム：混合マルチタスクRLVRと、分離ドメインRLVR後のモデルマージを評価する。
クロスドメインの利得を生む内部機構—重み空間の幾何、予測挙動、情報制約—を分析する。
トレーニング効率（GPU時間）と各ドメインのベンチマーク精度のトレードオフを定量化する。

提案手法

GRPO（Group Relative Policy Optimization）を学習アルゴリズムとして用い、RLVRを適用する。
4つのターゲットドメイン（数学、コーディング、科学、指示追従）を構築し、各ドメインにNemotronベースのSFTとRLVRデータセットを使用する。
混合マルチタスクRLVRを、重みマージ（平均、タスク演算、TIESマージ、SCE）付きの分離ドメインRLVRおよびMT-OPD（多教師オンポリシー蒸留）と比較する。
オープンソースの監督付きファインチューニング（SFT）とRLVRのデータを活用し、起点モデルとしてQwen3-4B-Baseを使用する。9ベンチマークでAvg@Kを報告する。
マージ手法とマルチタスクRLVRを、AIME’24/’25、LiveCodeBench v5/v6、HLE、GPQA-Diamond、IFEval、IFBench、MMLU-Reduxなどの複数ベンチマークで評価する。
内部機構を調査する：重み移動のオーバーラップ、射影後の移動重みのコサイン類似、KL発散の挙動、ポリシー近傍の影響を分析する。

実験結果

リサーチクエスチョン

RQ1混合マルチタスクRLVRは、複数ドメインにわたって分離RLVR＋マージと同等の性能を実現するか。
RQ2クロスドメインの干渉がどの程度存在し、推論集中的なドメイン間で相乗効果が生じるか。
RQ3重み空間の変化とポリシー分布は、マルチドメインRLVRにおける跨ドメインの利得をどう媒介するか。
RQ4異なるマージ手法（平均、タスク演算、TIES、SCE、MT-OPD）がクロスドメイン性能に与える影響は。
RQ5検証モダリティ（アウトカムベース vs プロセスベース）は、マルチドメインRLVR戦略とドメイン特性とどう相互作用するか。

主な発見

Benchmarks	Qwen3-4B-Base	SFT	RL-Math	RL-Coding	RL-Science	RL-IF	Model Merging	RL-Multi
AIME’24	9.65	54.90	71.51	60.78	63.65	64.06	71.67	73.85
AIME’25	5.68	51.30	63.54	55.57	57.19	61.67	66.72	64.11
LiveCodeBench v5 (Coding)	16.50	51.27	56.99	59.40	58.75	59.09	57.80	59.77
LiveCodeBench v6 (Coding)	18.29	53.43	53.71	55.43	54.57	55.43	53.14	56.57
HLE (Science)	4.45	5.24	5.93	6.02	5.28	6.26	6.02	5.84
GPQA-Diamond (Science)	20.08	46.09	56.82	49.12	56.19	49.37	56.19	53.66
IFEvalstrict prompt (IF)	35.12	79.48	83.18	81.33	81.51	88.17	89.83	90.34
IFBench (IF)	11.90	38.44	40.14	39.80	38.10	56.12	53.74	55.78
MMLU-Redux (General)	30.91	79.05	80.14	79.88	77.93	80.23	79.91	80.00

混合マルチタスクRLVRは、マージ付きの分離RLVRと同等の性能を、GPU時間の約33.2%程度で達成する。
クロスドメインRLVRはタスク間干渉が最小で、推論を要するドメインで相乗効果を示す。
ドメイン間での重み移動の痕跡は大きく重なり、射影後の正のコサイン類似を示し、共通の適応領域を示唆する。
マージされた／マルチドメインのポリシーとドメイン専門家のKL発散は、必ずしも性能低下を厳密に予測せず、近傍ポリシーの転送がドメインポリシーを最適ポリシーへと形作る。
モデルマージは単一タスクモデルの能力を継承する傾向がある一方で、多タスク訓練は単一タスク訓練と異なる、より広範な新興能力を生み出す。
RLVRは自己識別能力とクロスドメインのシナジーを誘発し、多タスクRLVRは成果とプロセス判断の両方を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。