QUICK REVIEW

[論文レビュー] FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

Mostapha Benhenda|ArXiv.org|Feb 11, 2025

FinTech, Crowdfunding, Digital Finance被引用数 9

ひとこと要約

本論文は、CVaR-PPO を LLM由来の銘柄推奨と金融ニュースからのリスク信号で補強したリスク感度の高い取引エージェントを提案し、複数のLLMを用いて Nasdaq-100 で評価した。

ABSTRACT

This paper presents a novel risk-sensitive trading agent combining reinforcement learning and large language models (LLMs). We extend the Conditional Value-at-Risk Proximal Policy Optimization (CPPO) algorithm, by adding risk assessment and trading recommendation signals generated by a LLM from financial news. Our approach is backtested on the Nasdaq-100 index benchmark, using financial news data from the FNSPID dataset and the DeepSeek V3, Qwen 2.5 and Llama 3.3 language models. The code, data, and trading agents are available at: https://github.com/benstaf/FinRL_DeepSeek

研究の動機と目的

金融ニュースを取引のリスクと推奨信号として強化学習に組み込む。
トレーディング軌道の下振れリスクを管理するために CVaR 制約を用いて CPPO を拡張する。
感情分析を超えるニュースからの LLM ベースの特徴抽出を取引意思決定に実証する。

提案手法

LLM由来の銘柄推奨とリスクスコアを組み込むことで CVaR-PPO を拡張する。
LLMの銘柄スコアからのアクション撹乱 S_f を注入して取引シグナルを調整する。
LLM由来のニュースリスクスコアからのリスク撹乱 R_f を注入して軌道のリターンを調整する（D_Rf = R_f * D）。
銘柄ごとに日次の FNSPID ニュースを代表サンプリングして、3つのLLM（DeepSeek-V3、Qwen 2.5、Llama 3.3）用のプロンプトを生成する。
2019–2023 の履歴ウィンドウで Nasdaq-100 をバックテストし、PPO/CPPO およびそれぞれの DeepSeek 変種の情報比率、CVaR、Rachev 比を評価する。

実験結果

リサーチクエスチョン

RQ1LLM由来の銘柄推奨とリスクスコアは、標準の PPO/CPPO のベースラインを超えてリスク感度の高い RL 取引性能を向上させるか？
RQ2PPO-DeepSeek および CPPO-DeepSeek の両方の構成で、LLM注入強度を変えることが取引性能に与える影響は何か？
RQ3LLM 信号を統合した場合、長いトレーニング期間は性能を安定化させ向上させるか？
RQ4LLM ベースのリスク信号は、取引における CVaR 制約付き学習目的にどのように影響するか？

主な発見

モデル	情報比	CVaR	Rachev比
PPO (100 epochs)	0.0100	-0.0394	1.0637
CPPO (100 epochs)	-0.0148	-0.0439	1.0404
PPO-DeepSeek (100 epochs)	-0.0093	-0.0338	0.9890
CPPO-DeepSeek (100 epochs)	0.0078	-0.0437	0.9818

LLM統合型のPPO/CPPOは、長い訓練期間で累積リターンが改善されるが、いくつかの設定では Nasdaq-100 に及ばない場合がある。
200万ステップの訓練で、PPO-DeepSeek および CPPO-DeepSeek の変種は情報比と CVaR 指標を複数の実行で顕著に達成し、時には弱気市場で Nasdaq-100 を上回る。
より強い LLM 注入は一般に PPO の性能を低下させるが、特定の実行では CPPO-DeepSeek の性能を向上させ、モデルと相場状況に依存する効果を示す。
PPO-DeepSeek は上昇市場で優れる傾向があり、CPPO-DeepSeek は2つの実行で下落市場で力を示す。
注入強度の実験では、10% の注入がしばし PPO-DeepSeek を基準より損なう一方で、CPPO-DeepSeek は一部構成で高い注入から利益を得ることがある。
表は次のとおり: PPO (100 エポック) 情報比 0.0100, CVaR -0.0394, Rachev 1.0637; CPPO (100 エポック) -0.0148, -0.0439, 1.0404; PPO-DeepSeek (100 エポック) -0.0093, -0.0338, 0.9890; CPPO-DeepSeek (100 エポック) 0.0078, -0.0437, 0.9818。
S_f および R_f の撹乱は取引行動とリスク調整後リターンに影響を与え、ほぼ 1 に近い撹乱は安定性を保ちつつニュース信号と整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。