QUICK REVIEW

[논문 리뷰] To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Haoqing Wang, Xiang Long|arXiv (Cornell University)|2026. 02. 13.

Topic Modeling인용 수 0

한 줄 요약

요약: 이 논문은 혼합 다중 작업 RLVR과 도메인별 RLVR 후 모델 머징을 비교하여 다도메인 LLM에서 혼합 학습이 머징과 경쟁적이며 도메인 간 시너지 효과를 낳는지 분석하고, 가중치 이동, 정책 이웃, 검증 모달리티에 대한 광범위한 분석을 제시한다.

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, instruction following, and agent) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, information constraints, model prediction behavior and self-verification. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/Mosi-AI/M2RL.

연구 동기 및 목표

여러 도메인(math, coding, science, instruction following)에서 일반지식형이자 전문가급 LLM의 필요성을 강조한다.
혼합 다중 도 task RLVR과 도메인 분리 RLVR 후 머징이라는 두 가지 다도메인 RLVR 패러다임을 평가한다.
도메인 간 이득을 유발하는 내부 메커니즘—가중치 공간 기하, 예측 동작, 정보 제약—을 분석한다.
GPU 시간 등 훈련 효율성과 도메인 전반의 벤치마크 정확도 측면에서 성능 트레이드오프를 정량화한다.

제안 방법

GRPO(그룹 상대 정책 최적화)를 학습 알고리즘으로 사용하는 강화학습 기반 검증 가능한 보상(RLVR)을 적용한다.
수학, 코딩, 과학, 지침 준수를 포함한 네 개의 대상 도메인을 구성하고 각 도메인에 Nemotron 기반의 SFT 및 RLVR 데이터셋을 사용한다.
혼합 다중 작업 RLVR과 가중치 머징(평균, 작업 산술, TIES-머징, SCE) 및 MT-OPD(다중 교사 온-policy 증류)와 대조한다.
SFT 및 RLVR를 위한 오픈 소스 데이터셋을 활용하고 시작 모델로 Qwen3-4B-Base를 사용하며 9개 벤치마크에서 Avg@K를 보고한다.
머징 방법과 다중 작업 RLVR를 AIME’24/’25, LiveCodeBench v5/v6, HLE, GPQA-Diamond, IFEval, IFBench, MMLU-Redux 등 여러 벤치마크에서 평가한다.
내부 메커니즘을 탐구한다: 가중치 이동의 중복성, 프로젝션 후의 가중치 간 코사인 유사도, KL 발산의 동작, 정책 이웃 효과를 분석한다.

실험 결과

연구 질문

RQ1혼합 다중 작업 RLVR이 여러 도메인에서 도메인 분리 RLVR 후 머징과 비교해 비슷한 성능을 달성하는가?
RQ2교차 도메인 간 간섭이 어느 정도 존재하며 추론 집중 도메인 간 시너지가 있는가?
RQ3가중치 공간 변화와 정책 분포가 다도메인 RLVR의 교차 도메인 이득에 어떤 매개 역할을 하는가?
RQ4평균, 작업 산술, TIES, SCE, MT-OPD 등 다양한 도메인 머징 기법이 교차 도메인 성능에 주는 영향은 무엇인가?
RQ5검증 모달리티(outcome 기반 vs process 기반)가 다도메인 RLVR 전략 및 도메인 특성과 어떻게 상호 작용하는가?

주요 결과

혼합 다중 작업 RLVR은 머징이 있는 분리형 RLVR과 비슷한 성능을 내면서도 GPU 시간은 약 33.2%만 사용한다.
교차 도메인 RLVR은 작업 간 간섭이 최소화되며 추론 집중 도메인에서 시너지 효과를 보인다.
도메인 간 가중치 이동 footprints가 크게 중복되며 투사 후 코사인 유사도가 양수로 나타나 공유된 적응 영역이 있음을 시사한다.
머징된/다도메인 정책과 도메인 전문가 간의 KL 발산은 반드시 성능 저하를 예측하지 않으며 인접 정책 전달이 도메인 정책을 최적 정책으로 형성한다.
모델 머징은 단일 작업 모델의 능력을 물려받는 경향이 있는 반면 다중 작업 학습은 단일 작업 학습과는 다른 더 넓고 새로운 능력을 얻도록 한다.
RLVR은 자기 구별 능력과 도메인 간 시너지를 유도하며, 다중 작업 RLVR은 결과 판단과 과정 판단을 모두 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.