[논문 리뷰] Toward Expert Investment Teams:A Multi-Agent LLM System with Fine-Grained Trading Tasks
이 논문은 실제 투자 워크플로를 모방하는 세분화된 작업 지시문으로 다중 에이전트 LLM 거래 프레임워크를 제시하고, 일본 TOPIX 100 데이터에 대한 백테스트에서 거친 설계보다 위험조정 수익이 개선되었음을 보인다.
The advancement of large language models (LLMs) has accelerated the development of autonomous financial trading systems. While mainstream approaches deploy multi-agent systems mimicking analyst and manager roles, they often rely on abstract instructions that overlook the intricacies of real-world workflows, which can lead to degraded inference performance and less transparent decision-making. Therefore, we propose a multi-agent LLM trading framework that explicitly decomposes investment analysis into fine-grained tasks, rather than providing coarse-grained instructions. We evaluate the proposed framework using Japanese stock data, including prices, financial statements, news, and macro information, under a leakage-controlled backtesting setting. Experimental results show that fine-grained task decomposition significantly improves risk-adjusted returns compared to conventional coarse-grained designs. Crucially, further analysis of intermediate agent outputs suggests that alignment between analytical outputs and downstream decision preferences is a critical driver of system performance. Moreover, we conduct standard portfolio optimization, exploiting low correlation with the stock index and the variance of each system's output. This approach achieves superior performance. These findings contribute to the design of agent structure and task configuration when applying LLM agents to trading systems in practical settings.
연구 동기 및 목표
- 세분화된 작업 분해가 거친(prompt)와 비교하여 LLM 기반 거래 성능을 향상시키는지 동기 부여하고 평가한다.
- 전문 에이전트에 상세한 작업을 할당하여 실제 투자 워크플로를 모방한다.
- 백테스트에서 포트폴리오 성과와 중간 에이전트 산출물의 해석가능성을 모두 평가한다.
- 정보 흐름과 강건한 거래 신호를 위한 작업 상세성의 필요성을 분석한다.
제안 방법
- 일곱 개의 전문 에이전트(기술, 양적, 질적, 뉴스, 섹터, 매크로, PM)로 구성된 하향식 관리-애널리스트 멀티에이전트 프레임워크를 제안한다.
- 사전에 계산된 지표 및 메트릭스를 사용하여 기술 에이전트와 양적 에이전트에 세분화된 프롬프트를 구현하고, 원시 데이터를 입력으로 하는 거친 프롬프트와 비교한다.
- 2023년 9월부터 2025년 11월까지 월간 리밸런싱되는 일본 TOPIX 100 롱쇼트, 마켓-뉴트럴 포트폴리오를 사용하고 추론에는 GPT-4o를 사용한다.
- 지식 컷오프 간격을 보장하고 의사결정 포인트까지의 데이터만 사용하여 데이터 누수를 방지한다.
- 샤프 비율로 성과를 평가하고 에이전트 간의 정성적 산출물 및 정보 전달을 분석한다.
- 각 에이전트가 전체 성과에 미치는 기여를 평가하기 위한 소거 연구를 포함한다.
실험 결과
연구 질문
- RQ1세분화된 작업 분해가 다중 에이전트 LLM 거래 시스템에서 거친 작업 설정에 비해 위험조정 수익(샤프 비율)을 향상시키는가?
- RQ2개별 에이전트를 제거하면 성과에 어떤 영향을 미치며, 세분화된 프롬프트의 이점을 주도하는 에이전트는 무엇인가?
- RQ3정보 전달 및 해석가능성은 계층적 LLM 에이전트 거래 프레임워크의 성능에서 어떤 역할을 하는가?
- RQ4가격, 재무제표, 뉴스, 매크로 데이터 등 현실적인 데이터 소스로 프레임워크를 검증하고 누수 없이 백테스트할 수 있는가?
주요 결과
- 세분화된 작업 분해는 백테스트에서 포트폴리오 규모 20, 30, 40, 50에 걸친 샤프 비율에서 일반적으로 거친 설계보다 우수한 성과를 보인다.
- 소거 연구에서 기술 에이전트가 세분화된 프롬프트의 성능 향상에 특히 중요한 역할을 한다고 나타난다.
- 뉴스 및 매크로 에이전트는 설정에 따라 성능에 기여하며, 제거 시 구성에 따라 성능이 오히려 개선되기도 한다.
- 세분화된 프롬프트 하에서 하위 수준 산출물과 상위 결정 간의 의미론적 정합성이 더 높아지며, 특히 기술 에이전트의 경우 그렇다.
- 표준 포트폴리오 최적화를 통한 벤치마크와의 비교에서도 시스템이 경쟁력 있는 성과를 보인다.
- 중간 텍스트와 에이전트 산출물을 분석하면 거래 프레임워크의 해석가능성과 신뢰성이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.