QUICK REVIEW

[논문 리뷰] $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models

Ryozo Masukawa, Sanggeon Yun|arXiv (Cornell University)|2026. 02. 09.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 검증 가능한 보상(RLVR) 하에서 학습 가능한 Perceiver-스타일 어댑터를 통해 고정된 여러 작은 언어 모델(SLM)을 연합하는 소프트 히든-스테이트 협업을 도입하여 경쟁력 있는 추론 성능을 달성하고 emergent expert roles를 드러낸다.

ABSTRACT

Recent progress in reinforcement learning with verifiable rewards (RLVR) shows that small, specialized language models (SLMs) can exhibit structured reasoning without relying on large monolithic LLMs. We introduce soft hidden-state collaboration, where multiple heterogeneous frozen SLM experts are integrated through their internal representations via a trainable attention interface. Experiments on Reasoning Gym and GSM8K show that this latent integration is competitive with strong single-model RLVR baselines. Ablations further reveal a dual mechanism of expert utilization: for simpler arithmetic domains, performance gains can largely be explained by static expert preferences, whereas more challenging settings induce increasingly concentrated and structured expert attention over training, indicating emergent specialization in how the router connects to relevant experts. Overall, hidden-state collaboration provides a compact mechanism for leveraging frozen experts, while offering an observational window into expert utilization patterns and their evolution under RLVR.

연구 동기 및 목표

RLVR에서 추론 작업에 대해 모놀리식 LLM에서 고정된 특수화된 SLM 앙상블로의 전환을 촉진한다.
retrain 없이 고정된 전문가의 은닉 상태를 공개하고 활용하는 표현 수준의 학습 가능한 인터페이스를 제안한다.
잠재적 전문가 조건부가 특정 태스크에서 추론을 개선하고 RLVR 훈련 동안 emergent 전문가 역학을 드러낼 수 있음을 보인다.

제안 방법

전문가 조건부 정책을 πθ,ϕ(y | x) = πθ(y | [x ∥ C]) 로 정의하고, C = gϕ(H)로 도출된 고정된 전문가 표현 H에서 파생된 컨텍스트 토큰.
고정된 전문가의 최종 레이어 은닉 상태를 추출하고 정렬된 뒤 풀링(di × d 투사 매트릭스 Wi를 통해) 공유 잠재 공간으로 투사한다.
일치된 표현들을 Perceiver 스타일의 크로스 어텐션 병목으로 모아 m개의 학습 가능한 잠재 쿼리 Qlat를 사용해 고정 크기의 컨텍스트 토큰 C를 생성한다.
최종 정책에 C를 프리픽스 조건으로 제공하고 KL-정규화 목적 GRPO/변형 하에 RLVR로 엔드-투-엔드로 θ, ϕ를 최적화한다.
교차 주의 가중치(라우팅 엔트로피)와 전문가별 사용 u_i를 추적해 잠재 활용 다이나믹스를 조사하여 emergent 역할을 연구한다.

실험 결과

연구 질문

RQ1숨겨진 상태를 통한 잠재적 전문가 조건부가 단일 모델 베이스라인을 넘어서 RLVR 성능을 향상시키는가?
RQ2RLVR이 명시적 라우팅 감독 없이도 구조화된, 태스크 의존적 전문가 활용을 유도하는가?
RQ3어떤 조건에서 히든-스테이트 협력이 다양한 작업에서 추론에 도움を 주거나 해로운가?

주요 결과

방법	알고리즘적	산술	논리	GSM8k
Single	51.56±0.55	52.34±1.78	96.88±1.10	64.32±0.92
Hard Routing	34.18±4.18	32.47±5.10	63.80±2.39	14.52±1.52
Output Collaboration	51.43±3.41	31.19±1.16	66.80±0.64	67.58±1.03
Ours (w/o Cross Attn) (n = 3)	51.56±0.64	60.16±4.38	89.71±2.17	63.28±1.03
Ours : Default Team (n = 3)	51.82±0.49	75.26±5.62	82.81±1.56	61.59±1.25
Ours : Generalist Team (n = 5)	52.02±2.77	65.10±8.49	90.23±5.01	41.02±29.01

잠재적 전문가 맥락이 산술(Arithmetic)에서 RLVR와 결합될 때 성능을 향상시키지만, 이득은 태스크와 전문가 풀에 따라 다르다.
알고리즘 태스크는 잠재 맥락으로부터의 개선이 미미하거나 없고, 논리(Logic)와 GSM8K는 포화로 인한 제한으로 제한적이거나 음수 효과를 보이는 경우가 많다.
RLVR 자체가 emergent하고 구조화된 전문가 활용을 촉진하며, 훈련이 진행될수록 라우팅이 더 선택적으로 바뀌고(라우팅 엔트로피 감소가 보상과 양의 상관), 보상 증가와 연관된다.
더 높은 용량의 전문가(GPT-OSS 등)가 주의 집중을 지배하는 경향을 보이며, 전문가 활용의 용량 기반 편향과 잠재적 기능적 역할이 함께 작용하는 것으로 보인다.
맥락 토큰 C는 입력에 의한 조건화 그 이상으로 학습에 의미 있게 기여하며, 중간 수준의 잠재 병목(m ≈ 8)이 표현력과 안정성 사이의 균형을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.