Skip to main content
QUICK REVIEW

[논문 리뷰] To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Haoqing Wang, Xiang Long|arXiv (Cornell University)|2026. 02. 13.
Topic Modeling인용 수 0
한 줄 요약

요약: 이 논문은 혼합 다중 작업 RLVR과 도메인별 RLVR 후 모델 머징을 비교하여 다도메인 LLM에서 혼합 학습이 머징과 경쟁적이며 도메인 간 시너지 효과를 낳는지 분석하고, 가중치 이동, 정책 이웃, 검증 모달리티에 대한 광범위한 분석을 제시한다.

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, instruction following, and agent) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, information constraints, model prediction behavior and self-verification. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/Mosi-AI/M2RL.

연구 동기 및 목표

  • 여러 도메인(math, coding, science, instruction following)에서 일반지식형이자 전문가급 LLM의 필요성을 강조한다.
  • 혼합 다중 도 task RLVR과 도메인 분리 RLVR 후 머징이라는 두 가지 다도메인 RLVR 패러다임을 평가한다.
  • 도메인 간 이득을 유발하는 내부 메커니즘—가중치 공간 기하, 예측 동작, 정보 제약—을 분석한다.
  • GPU 시간 등 훈련 효율성과 도메인 전반의 벤치마크 정확도 측면에서 성능 트레이드오프를 정량화한다.

제안 방법

  • GRPO(그룹 상대 정책 최적화)를 학습 알고리즘으로 사용하는 강화학습 기반 검증 가능한 보상(RLVR)을 적용한다.
  • 수학, 코딩, 과학, 지침 준수를 포함한 네 개의 대상 도메인을 구성하고 각 도메인에 Nemotron 기반의 SFT 및 RLVR 데이터셋을 사용한다.
  • 혼합 다중 작업 RLVR과 가중치 머징(평균, 작업 산술, TIES-머징, SCE) 및 MT-OPD(다중 교사 온-policy 증류)와 대조한다.
  • SFT 및 RLVR를 위한 오픈 소스 데이터셋을 활용하고 시작 모델로 Qwen3-4B-Base를 사용하며 9개 벤치마크에서 Avg@K를 보고한다.
  • 머징 방법과 다중 작업 RLVR를 AIME’24/’25, LiveCodeBench v5/v6, HLE, GPQA-Diamond, IFEval, IFBench, MMLU-Redux 등 여러 벤치마크에서 평가한다.
  • 내부 메커니즘을 탐구한다: 가중치 이동의 중복성, 프로젝션 후의 가중치 간 코사인 유사도, KL 발산의 동작, 정책 이웃 효과를 분석한다.

실험 결과

연구 질문

  • RQ1혼합 다중 작업 RLVR이 여러 도메인에서 도메인 분리 RLVR 후 머징과 비교해 비슷한 성능을 달성하는가?
  • RQ2교차 도메인 간 간섭이 어느 정도 존재하며 추론 집중 도메인 간 시너지가 있는가?
  • RQ3가중치 공간 변화와 정책 분포가 다도메인 RLVR의 교차 도메인 이득에 어떤 매개 역할을 하는가?
  • RQ4평균, 작업 산술, TIES, SCE, MT-OPD 등 다양한 도메인 머징 기법이 교차 도메인 성능에 주는 영향은 무엇인가?
  • RQ5검증 모달리티(outcome 기반 vs process 기반)가 다도메인 RLVR 전략 및 도메인 특성과 어떻게 상호 작용하는가?

주요 결과

  • 혼합 다중 작업 RLVR은 머징이 있는 분리형 RLVR과 비슷한 성능을 내면서도 GPU 시간은 약 33.2%만 사용한다.
  • 교차 도메인 RLVR은 작업 간 간섭이 최소화되며 추론 집중 도메인에서 시너지 효과를 보인다.
  • 도메인 간 가중치 이동 footprints가 크게 중복되며 투사 후 코사인 유사도가 양수로 나타나 공유된 적응 영역이 있음을 시사한다.
  • 머징된/다도메인 정책과 도메인 전문가 간의 KL 발산은 반드시 성능 저하를 예측하지 않으며 인접 정책 전달이 도메인 정책을 최적 정책으로 형성한다.
  • 모델 머징은 단일 작업 모델의 능력을 물려받는 경향이 있는 반면 다중 작업 학습은 단일 작업 학습과는 다른 더 넓고 새로운 능력을 얻도록 한다.
  • RLVR은 자기 구별 능력과 도메인 간 시너지를 유도하며, 다중 작업 RLVR은 결과 판단과 과정 판단을 모두 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.