[논문 리뷰] AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
AgentConductor는 RL-optimized 다중 에이전트 시스템에 LLM 오케스트레이터를 두고, 경쟁 수준의 코드 생성을 위한 작업에 맞춘 밀도 인식 상호작용 토폴로지를 동적으로 생성하며 실행 피드백에 따라 토폴로지를 다듬습니다.
Large language model(LLM)-driven multi-agent systems(MAS) coordinate specialized agents through predefined interaction topologies and have shown promise for complex tasks such as competition-level code generation. Recent studies demonstrate that carefully designed multi-agent workflows and communication graphs can significantly improve code generation performance by leveraging collaborative reasoning. However, existing methods neither adapt topology density to task difficulty nor iteratively refine the topology within an instance using execution feedback, which leads to redundant communication and performance bottlenecks. To address these issues, we propose AgentConductor: a reinforcement learning-optimized MAS with an LLM-based orchestrator agent as its core, which enables end-to-end feedback-driven dynamic generation of interaction topologies. For each query, AgentConductor infers agent roles and task difficulty, then constructs a task-adapted, density-aware layered directed acyclic graph (DAG) topology, underpinned by two key innovations. First, we design a novel topological density function that captures communication-aware mathematical characterizations of multi-agent interactions. Second, we adopt difficulty interval partitioning to avoid excessive pruning for precise topological density upper bound measurement per difficulty level and finer-grained control. Empirically, across three competition-level and two foundational code datasets, AgentConductor achieves state-of-the-art accuracy, outperforming the strongest baseline by up to 14.6% in pass@1 accuracy, 13% in density reduction, and 68% in token cost reduction.
연구 동기 및 목표
- 문제 난이도에 따라 밀도를 확장하는 자동적이고 작업 특화된 토폴로지 생성을 촉진합니다.
- 단일 문제 인스턴스 내에서 피드백 기반의 엔드투엔드 상호작용 토폴로지 정교화를 가능하게 합니다.
- 높은 코드 정확도를 유지하면서 통신 및 계산 오버헤드를 감소시킵니다.
- 난이도 제약하에서 비용과 성능의 균형을 맞추기 위해 계층화된 DAG에 맞춤화된 토폴로지 밀도 평가 함수를 도입합니다.
- 경쟁 수준 및 기초 코드 데이터셋에서 최첨단 성능을 시연합니다.
제안 방법
- 계층화된 DAG 토폴로지를 제안하여 계內 병렬성과 계층 간 통신을 가능하게 하며, YAML 기반의 사람이 읽을 수 있는 표현을 제공합니다.
- 실행 피드백과 함께 다수의 턴에 걸쳐 작업에 적응하는 토폴로지를 생성하는 오케스트레이터 에이전트를 최적화하기 위해 강화 학습 프레임워크 (GRPO)를 사용합니다.
- 노드, 간선, 깊이를 측정하고 이를 합성 밀도 지표로 정규화하여 보상 구조를 안내하는 그래프 밀도 평가 함수를 정의합니다.
- 토폴로지 사전을 인코딩하기 위해 감독형 미세조정으로 오케스트레이터를 사전 학습한 뒤, 궤적 기반 정책 최적화를 통해 정교화합니다.
- 작업 특화 밀도 경계와 더 세밀한 토폴로지 제어를 얻기 위해 난이도 구간 분할을 도입합니다.
실험 결과
연구 질문
- RQ1다중 에이전트 코드 생성에서 토폴로지 밀도를 작업의 난이도에 어떻게 적응시킬 수 있을까?
- RQ2단일 문제 인스턴스 내에서 실행 피드백을 사용하여 상호작용 토폴로지를 반복적으로 정제할 수 있을까?
- RQ3YAML로 표현된 계층화된 DAG 토폴로지가 고정형 또는 체인/토폴로지 기초선보다 유연성과 효율을 향상시키는가?
- RQ4난이도 인식 밀도 보상이 코드 정확도와 토큰 비용에 미치는 영향은 무엇인가?
- RQ5추가 최적화 없이 AgentConductor가 새로운 데이터셋과 작업 유형으로 얼마나 잘 일반화되는가?
주요 결과
- AgentConductor는 세 개의 경쟁 수준 코드 데이터셋과 두 개의 기초 코드 데이터셋에서 최첨단 정확도를 달성합니다.
- 본 접근법은 토폴로지 밀도를 최대 13%까지 감소시킵니다.
- 본 방법은 최대 68%의 토큰 비용 절감을 달성합니다.
- 가장 강력한 베이스라인을 최대 14.6%의 pass@1 정확도로 상회합니다.
- 토폴로지 밀도는 새로운 밀도 함수와 난이도 인식 경계를 통해 작업 난이도에 맞춰 조정됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.