[논문 리뷰] Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent Baseline
본 논문은 다중 턴 대화와 KV 캐시를 갖춘 단일 LLM 에이전트가 동질적 다중 에이전트 워크플로우의 성능과 일치할 수 있음을 보이고, 자동화된 단일에이전트 워크플로우 설계를 위한 OneFlow를 도입한다.
Recent advances in LLM-based multi-agent systems (MAS) show that workflows composed of multiple LLM agents with distinct roles, tools, and communication patterns can outperform single-LLM baselines on complex tasks. However, most frameworks are homogeneous, where all agents share the same base LLM and differ only in prompts, tools, and positions in the workflow. This raises the question of whether such workflows can be simulated by a single agent through multi-turn conversations. We investigate this across seven benchmarks spanning coding, mathematics, general question answering, domain-specific reasoning, and real-world planning and tool use. Our results show that a single agent can reach the performance of homogeneous workflows with an efficiency advantage from KV cache reuse, and can even match the performance of an automatically optimized heterogeneous workflow. Building on this finding, we propose extbf{OneFlow}, an algorithm that automatically tailors workflows for single-agent execution, reducing inference costs compared to existing automatic multi-agent design frameworks without trading off accuracy. These results position the single-LLM implementation of multi-agent workflows as a strong baseline for MAS research. We also note that single-LLM methods cannot capture heterogeneous workflows due to the lack of KV cache sharing across different LLMs, highlighting future opportunities in developing extit{truly} heterogeneous multi-agent systems.
연구 동기 및 목표
- 다중 톤 대화를 통한 단일 에이전트가 동질적 다중 에이전트 워크플로우를 효과적으로 시뮬레이션할 수 있는지 동기를 부여한다.
- 단일 에이전트 실행과 전통적 다중 에이전트 구성 간의 성능 및 비용 영향력을 정량화한다.
- 단일 에이전트 실행에서 성능과 비용을 최적화하는 자동 워크플로우 설계 프레임워크(OneFlow)를 제안한다.
- 단일 에이전트 기준선과 비교하여 이질적인 다중 에이전트 워크플로우의 한계와 잠재적 이점을 탐구한다.
제안 방법
- 에이전트, 프롬프트, 도구 및 라우팅이 포함된 방향성 그래프로 LLM 기반 다중 에이전트 워크플로우를 형식화한다.
- 히스토리에 기반한 라우팅과 결정론적 도구 효과 하에서 단일-LLM 시뮬레이터가 동질적 워크플로우의 트랜스크립트 분포를 재현할 수 있음을 보인다.
- prefill 비용을 줄이기 위해 턴 간 KV cache를 재사용하는 구체적인 단일 에이전트 구현을 설명한다.
- 단일 에이전트 실행에 맞춘 워크플로우를 자동으로 설계하는 dual-meta-LLM + Monte Carlo Tree Search 프레임워크인 OneFlow를 도입한다.
- 최적화된 워크플로우의 단일-LLM 실행에 이르는 자동 워크플로우 설계의 2단계 접근법을 개요한다.
실험 결과
연구 질문
- RQ1단일 에이전트 구현이 표현력의 손실 없이 동질적 다중 에이전트 워크플로우를 충실히 시뮬레이션할 수 있는가?
- RQ2KV cache 공유가 단일 에이전트 실행에서 다중 에이전트 구성과 비교하여 성능과 비용에 어떤 영향을 미치는가?
- RQ3OneFlow와 같은 자동 설계 전략이 추론 비용을 줄이면서 유사한 성능을 달성할 수 있는가?
- RQ4이질적(다중 모델) 워크플로우를 포착하는 데 있어 단일 에이전트 접근법의 한계는 무엇인가?
주요 결과
- 단일 에이전트가 동질적 워크플로우를 실행하면 여러 벤치마크에서 다중 에이전트 버전의 성능에 맞출 수 있다.
- KV cache 재사용으로 단일 에이전트 실행이 비용을 감소시키는 이점을 얻으며, 성능은 유지되거나 향상된다.
- OneFlow가 자동으로 기존 방법과 비슷한 성능을 달성하되 추론 비용은 더 낮은 간소화된 워크플로우를 설계한다.
- 이질적인 워크플로우(자동 설계)의 단일 에이전트 실행이 일부 이질적 기준선의 성능과 일치할 수 있으나, 실제 이질성(KV cache를 서로 다른 모델 간 공유)은 여전히 도전적이다.
- 턴 간 KV cache 공유가 주요 효율 요인으로 입증되며, 특히 오픈-웨이트(open-weight) 또는 비용에 민감한 설정에서 그렇다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.