[논문 리뷰] SkillOrchestra: Learning to Route Agents via Skill Transfer
SkillOrchestra는 모드 수준의 오케스트레이션과 스킬 기반 에이전트 라우팅을 안내하는 재사용 가능한 스킬 핸드북을 학습하여, RL 기반 기준선보다 더 높은 정확도와 더 낮은 비용을 달성하고 오케스트레이터 백본 간의 이전 가능성을 가능하게 한다.
Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.
연구 동기 및 목표
- 다회 대화 에이전트 시스템에서 미세한 스킬 인식 오케스트레이션의 필요성을 동기부여한다.
- 모드 수준 통찰, 미세한 스킬, 에이전트 프로파일을 포착하는 스킬 핸드북을 소개한다.
- 스킬 기반 라우팅이 상태-조건부이고 비용 인식된 의사결정을 가능하게 하며 라우팅 붕괴를 줄이는 방법을 보여준다.
- 백본과 도구 풀 전반에 걸친 오케스트레이션 지식의 데이터 효율적 학습과 이전 가능성을 시연한다.
- Pareto 검증을 통해 오케스트레이터별 핸드북의 세분성을 선택하기 위한 지침을 제공한다.
제안 방법
- 작동 모드와 맥락에 바인딩된 재사용 가능한 역량 추상화로 스킬을 정의한다.
- 모드 수준 라우팅 인사이트, 스킬 레지스트리, 에이전트 프로필을 포함하는 그래프로 스킬 핸드북을 구성한다.
- 실행 흔적으로부터 성공 트랙과 실패 트랙을 구분하여 누락된 역량을 추론함으로써 핸드북을 학습한다.
- 각 모드에서 에이전트 역량(스킬당 확률)과 비용을 추정하여 비용 인식 라우팅을 가능하게 한다.
- 표현력과 의사결정 신뢰성의 균형을 맞추기 위해 Pareto 최적화 검증을 통해 오케스트레이터-specific 핸드북 하위집합을 선택한다.
- 런타임 라우팅은 핸드북을 사용해 모드 선택과 스킬 기반 에이전트 라우팅을 수행하며 성능과 비용 간의 트레이드오프를 가진다.

실험 결과
연구 질문
- RQ1RQ1: 학습된 스킬 핸드북이 휴리스틱, 판별적, RL 기반 방법보다 엔드 투 엔드 정확도를 향상시키는가?
- RQ2RQ2: 스킬 기반 오케스트레이션 접근 방식이 더 나은 성능-비용 트레이드오프를 제공하는가?
- RQ3RQ3: 스킬 기반 라우팅이 라우팅 붕괴를 줄이고 모델 간 균형 활용을 촉진하는가?
- RQ4RQ4: 핸드북은 재학습 없이 오케스트레이터 백본 간에 이전될 수 있는가?
- RQ5RQ5: 스킬 핸드북의 서로 다른 구성 요소가 성능과 비용 효율성에 어떻게 기여하는가?
주요 결과
- SkillOrchestra는 가장 강력한 RL 기반 오케스트레이터를 능가하며 QA 벤치마크에서 최대 22.5 퍼센트 포인트의 정확도 차이를 달성한다.
- Router-R1 및 ToolOrchestra에 비해 비용을 약 2배로 절감하면서도 정확도를 유지하거나 향상시킨다.
- 스킬 기반 라우팅은 엔드 투 엔드 RL 방법에서 흔한 라우팅 붕괴를 완화하며 더 균형 잡힌 모델 활용을 가능하게 한다.
- 스킬 핸드북은 재학습 없이 오케스트레이터 백본 간 이전 가능성을 보여주고 Pareto 효율적인 성능-비용 트레이드오프를 지원한다.
- Pareto로 검증된 오케스트레이터별 핸드북 선택은 의사결정 신뢰성을 보장하는 적절한 세분성을 확보한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.