[논문 리뷰] FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents
본 논문은 LLM 유도 주식 추천과 금융 뉴스로부터의 위험 신호를 보강한 위험 민감 트레이딩 에이전트를 CVaR-PPO에 도입하고, Nasdaq-100에서 다수의 LLM으로 평가했다.
This paper presents a novel risk-sensitive trading agent combining reinforcement learning and large language models (LLMs). We extend the Conditional Value-at-Risk Proximal Policy Optimization (CPPO) algorithm, by adding risk assessment and trading recommendation signals generated by a LLM from financial news. Our approach is backtested on the Nasdaq-100 index benchmark, using financial news data from the FNSPID dataset and the DeepSeek V3, Qwen 2.5 and Llama 3.3 language models. The code, data, and trading agents are available at: https://github.com/benstaf/FinRL_DeepSeek
연구 동기 및 목표
- 트레이딩을 위한 강화학습에 금융 뉴스의 위험 및 추천 신호를 통합한다.
- 트레이딩 궤적의 하방 위험을 관리하기 위해 CVaR 제약이 적용된 CPPO를 확장한다.
- 단순한 감정 분석을 넘어 뉴스에서 LLM 기반 특성 추출을 트레이딩 의사결정에 활용한다.
제안 방법
- LLM 유도 주식 추천 및 위험 점수를 포함하도록 CVaR-PPO를 확장한다.
- LLM 주식 점수로부터의 S_f 행위 섭동을 주입해 트레이딩 신호를 조정한다.
- LLM 파생 뉴스 위험 점수로부터의 R_f 위험 섭동을 주입해 경로 수익을 조정한다( D_Rf = R_f * D ).
- 세 가지 LLM(DeepSeek-V3, Qwen 2.5, Llama 3.3)을 위한 프롬프트를 생성하기 위해 주식별 1일당 FNSPID 뉴스의 대표 샘플링을 사용한다.
- 2019–2023년 역사적 창으로 나스닥-100에서 백테스트를 수행하고 PPO/CPPO 및 이들의 DeepSeek 변형에서 정보 비율, CVaR 및 Rachev 비율을 평가한다.
실험 결과
연구 질문
- RQ1LLM 유도 주식 추천 및 위험 점수가 표준 PPO/CPPO 기본설정보다 위험 민감한 RL 트레이딩 성능을 개선할 수 있는가?
- RQ2PPO-DeepSeek 및 CPPO-DeepSeek 구성에서 LLM 주입 강도를 다양하게 하는 것이 트레이딩 성능에 어떤 영향을 미치는가?
- RQ3LLM 신호를 통합할 때 더 긴 학습 기간이 성능을 안정화시키고 향상시키는가?
- RQ4LLM 기반 위험 신호가 트레이딩의 CVaR 제약 학습 목표에 어떤 영향을 미치는가?
주요 결과
| 모델 | 정보 비율 | CVaR | Rachev 비율 |
|---|---|---|---|
| PPO (100 epochs) | 0.0100 | -0.0394 | 1.0637 |
| CPPO (100 epochs) | -0.0148 | -0.0439 | 1.0404 |
| PPO-DeepSeek (100 epochs) | -0.0093 | -0.0338 | 0.9890 |
| CPPO-DeepSeek (100 epochs) | 0.0078 | -0.0437 | 0.9818 |
- LLM 융합 PPO/CPPO는 학습 기간이 길어짐에 따라 누적 수익이 개선되지만 일부 설정에서 여전히 Nasdaq-100보다 성능이 떨어질 수 있다.
- 학습 단계가 2M일 때 PPO-DeepSeek 및 CPPO-DeepSeek 변형은 여러 실행에서 유의한 정보 비율과 CVaR 수치를 달성하며 때로는 하락장에서도 Nasdaq-100을 상회한다.
- 더 강한 LLM 주입은 일반적으로 PPO 성능을 저하시킬 수 있지만 특정 실행에서 CPPO-DeepSeek 성능을 향상시키는 경향이 있어 모델-및 제도에 따른 효과를 시사한다.
- PPO-DeepSeek는 강세장에서 우수한 경향이 있고 CPPO-DeepSeek는 약세장에서 강점 보이는 경향이 있으며 두 실행에서 모두 나타난다.
- 10% 주입 실험은 PPO-DeepSeek에 대해 기준선보다 악화를 보이는 경향이 있지만 일부 구성에서 CPPO-DeepSeek가 더 높은 주입에서 이점을 얻을 수 있다.
- 표: PPO (100 epochs) 정보 비율 0.0100, CVaR -0.0394, Rachev 1.0637; CPPO (100 epochs) -0.0148, -0.0439, 1.0404; PPO-DeepSeek (100 epochs) -0.0093, -0.0338, 0.9890; CPPO-DeepSeek (100 epochs) 0.0078, -0.0437, 0.9818.
- S_f 및 R_f 섭동은 거래 행동과 위험 조정 수익에 영향을 미치며, 거의 1에 가까운 섭동은 안정성을 유지하면서 뉴스 신호와 일치하는 경향이 있다.”],
- table_headers:[
- 모델
- 정보 비율
- CVaR
- Rachev 비율
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.