[論文レビュー] Toward Expert Investment Teams:A Multi-Agent LLM System with Fine-Grained Trading Tasks
この論文は、リアルな投資ワークフローを模倣した細粒度のタスク固有プロンプトを備えたマルチエージェントLLM取引フレームワークを紹介し、日本のTOPIX 100データを用いたバックテストで粗粒度設計よりリスク調整後リターンを改善したことを示します。
The advancement of large language models (LLMs) has accelerated the development of autonomous financial trading systems. While mainstream approaches deploy multi-agent systems mimicking analyst and manager roles, they often rely on abstract instructions that overlook the intricacies of real-world workflows, which can lead to degraded inference performance and less transparent decision-making. Therefore, we propose a multi-agent LLM trading framework that explicitly decomposes investment analysis into fine-grained tasks, rather than providing coarse-grained instructions. We evaluate the proposed framework using Japanese stock data, including prices, financial statements, news, and macro information, under a leakage-controlled backtesting setting. Experimental results show that fine-grained task decomposition significantly improves risk-adjusted returns compared to conventional coarse-grained designs. Crucially, further analysis of intermediate agent outputs suggests that alignment between analytical outputs and downstream decision preferences is a critical driver of system performance. Moreover, we conduct standard portfolio optimization, exploiting low correlation with the stock index and the variance of each system's output. This approach achieves superior performance. These findings contribute to the design of agent structure and task configuration when applying LLM agents to trading systems in practical settings.
研究の動機と目的
- 細粒度のタスク分解がLLMベースの取引パフォーマンスを粗粒度プロンプトと比較して改善するかを動機づけ、評価する。
- 専門エージェントに詳細タスクを割り当て、現実の投資ワークフローを模倣する。
- バックテストにおいてポートフォリオのパフォーマンスと中間エージェント出力の解釈性の両方を評価する。
- 情報の流れと堅牢な取引シグナルのためのタスク粒度の必要性を分析する。
提案手法
- 七つの専門エージェント(Technical, Quantitative, Qualitative, News, Sector, Macro, PM)を備えたボトムアップ型のマネージャー–アナリスト型マルチエージェント枠組みを提案する。
- 事前に計算された指標と指標を用いたTechnicalおよびQuantitativeエージェントの細粒度プロンプトを実装し、RAWデータを入力とする粗粒度プロンプトと比較する。
- 2023年9月〜2025年11月の日本のTOPIX 100ロングショート、マーケットニュートラルポートフォリオを月次リバランスで用い、推論にはGPT-4oを使用する。
- 意思決定点までのデータだけを用い、知識カットオフのギャップを確保することでデータリークを抑制する。
- Sharpe比でパフォーマンスを評価し、定性的な出力とエージェント間の情報伝播を分析する。
- 各エージェントの寄与を評価するアブレーション研究を含める。
実験結果
リサーチクエスチョン
- RQ1細粒度のタスク分解は、多エージェントLLM取引システムにおいて粗粒度タスク設定と比較してリスク調整後リターン(Sharpe比)を改善するか?
- RQ2個々のエージェントを除去した場合のパフォーマンスはどうなるか、細粒度プロンプトからの利益を生むのはどのエージェントか?
- RQ3階層型LLMエージェント取引フレームワークのパフォーマンスにおける情報伝播と解釈性の役割は何か?
- RQ4現実的なデータソース(価格、財務諸表、ニュース、マクロデータ)を用い、リークなしでバックテストを行い、このフレームワークを検証できるか?
主な発見
| Portfolio size | All agents | w/o Technical | w/o Quant. | w/o Qual. | w/o News | w/o Macro |
|---|---|---|---|---|---|---|
| 10 | -0.12 | +0.19**** | +0.08* | +0.17**** | +0.26**** | -0.12 |
- 細粒度のタスク分解は、バックテストにおける20、30、40、50のポートフォリオサイズで粗粒度設計よりも一般的にSharpe比を上回る。
- アブレーションによりTechnicalエージェントが細粒度プロンプト下でのパフォーマンス向上に特に重要であることが示された。
- NewsおよびMacroエージェントはパフォーマンスに寄与し、設定ごとにニュアンスのある差が生じる;除去は構成次第で結果を悪化させる場合もあれば改善する場合もある。
- セマンティック分析は、細粒度プロンプト下で低レベルの出力と高レベルの意思決定の整合性が高まることを示し、特にTechnicalエージェントで顕著である。
- 標準的なポートフォリオ最適化を通じて市場指数と比較した際に、システムは競争力のあるパフォーマンスを達成する。
- 中間テキストとエージェント出力の分析は、取引フレームワークの解釈性と信頼性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。