[논문 리뷰] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
Chain-of-Agents (CoA)는 시퀀스형 워커 LLM들을 사용해 긴 맥락을 청크 단위로 읽고, 최종 답안을 합성하는 별도의 매니저 LLM이 있어 RAG 및 전체 맥락 기준선 대비 긴 맥락 작업의 성능을 최대 10% 향상시킨다.
Addressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generation (RAG), and 2) expanding the context window limit of LLMs. However, both strategies have drawbacks: input reduction has no guarantee of covering the part with needed information, while window extension struggles with focusing on the pertinent information for solving the task. To mitigate these limitations, we propose Chain-of-Agents (CoA), a novel framework that harnesses multi-agent collaboration through natural language to enable information aggregation and context reasoning across various LLMs over long-context tasks. CoA consists of multiple worker agents who sequentially communicate to handle different segmented portions of the text, followed by a manager agent who synthesizes these contributions into a coherent final output. CoA processes the entire input by interleaving reading and reasoning, and it mitigates long context focus issues by assigning each agent a short context. We perform comprehensive evaluation of CoA on a wide range of long-context tasks in question answering, summarization, and code completion, demonstrating significant improvements by up to 10% over strong baselines of RAG, Full-Context, and multi-agent LLMs.
연구 동기 및 목표
- 입력 감소와 윈도우 확장을 넘어 긴 맥락 작업을 처리할 필요성에 대해 동기를 부여한다.
- 학습 없이 작동하는, 작업-독립적인 다중 에이전트 프레임워크를 제안하여 긴 입력 전반의 정보를 집계한다.
- 짧은 맥락의 워커들 간의 교차 읽기와 추론을 가능하게 하여 전체 수용 영역을 커버한다.
- 별도의 매니저 에이전트가 워커의 출력을 합성하여 정확한 최종 답변을 도출할 수 있음을 보여준다.
제안 방법
- 긴 입력 x를 크기 ≤ k의 청크로 분할하여 각 워커 W_i가 질의 q와 지시 I_W로 c_i를 처리할 수 있게 한다.
- 워커들은 순차적으로 처리하고 다음 단계에 대한 증거 또는 요약된 추론을 포함하는 커뮤니케이션 유닛 CU_i를 생성한다.
- 매니저 M은 마지막 워커로부터 CU_l를 받아 LLM을 통해 최종 Answer를 생성한다: Answer = LLM_M(I_M, CU_l, q).
- CoA는 교차 읽기-처리 사이클을 가능하게 하여 각 워커에게 짧은 맥락을 제공하면서도 전체 입력을 공동으로 커버한다.
- CoA를 Vanilla(컷 내 전체 맥 context) 및 RAG 기준선과 비교하고, 두 개의 다중 에이전트 기준선(Merge, Hierarchical)을 추가로 비교한다.
- 시간 복잡도: CoA의 인코딩은 O(nk)이고 전체 맥락은 O(n^2)이며, 두 경우 모두 디코딩은 O(nr)이다.
실험 결과
연구 질문
- RQ1학습 없이도 작동하는, 작업-독립적인 다중 에이전트 프레임워크를 제안하여 긴 입력 전반의 정보를 집계한다.
- RQ2짧은 맥락의 워커들 간의 교차 읽기와 추론을 가능하게 하여 전체 수용 영역을 커버한다.
- RQ3CoA를 QA, 요약 및 코드 완성 작업 전반에서 RAG 및 전체 맥락 기준선과 어떻게 비교되는가?
- RQ4에이전트 순서 및 다경로 보강이 최종 성능에 미치는 영향은 무엇인가?
주요 결과
- CoA는 QA, 요약, 코드 완성에 걸친 아홉 개의 긴 맥락 데이터셋에서 Vanilla 및 RAG를 능가하며 최대 10%의 이득을 제공한다.
- longer inputs와 더 강한 모델에서 Baseline 대비 상대적 개선이 더 커지며 NarrativeQA 및 BookSum에서 상당한 이득이 나타난다.
- 아블레이션은 매니저 구성요소의 중요성을 보여준다; 제거하면 성능이 눈에 띄게 저하한다(예: MuSiQue).
- 왼쪽-오른쪽 읽기 순서가 일반적으로 최선의 순서를 보이며, 다경로 접근(Self-Consistency, Permutation, Bi-directional)은 추가로 성능을 높일 수 있으며, 오라클 경로는 상한선을 설정한다.
- CoA는 Vanilla 전체 맥락 기준선에 비해 긴 맥락에서 “길을 잃는 현상”을 완화하며, 특히 더 긴 샘플에서 효과가 있다.
- 더 큰 윈도우를 가진 긴 맥락 LLM(Claude-3 200k)과 비교했을 때, CoA는 더 작은 윈도우로도 더 높거나 경쟁력 있는 성능을 달성할 수 있으며 입력 길이가 길어질수록 특히 그렇다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.