[论文解读] Unveiling the Potential of Sentiment: Can Large Language Models Predict Chinese Stock Price Movements?
本文使用三种大型语言模型(ChatGPT 基线、Erlangshen-RoBERTa 中文模型、中文 FinBERT)对中文金融新闻的情感进行提取,并通过标准化回测评估其交易表现,结果显示 Erlangshen-110M-Sentiment 最为有效。
The rapid advancement of Large Language Models (LLMs) has spurred discussions about their potential to enhance quantitative trading strategies. LLMs excel in analyzing sentiments about listed companies from financial news, providing critical insights for trading decisions. However, the performance of LLMs in this task varies substantially due to their inherent characteristics. This paper introduces a standardized experimental procedure for comprehensive evaluations. We detail the methodology using three distinct LLMs, each embodying a unique approach to performance enhancement, applied specifically to the task of sentiment factor extraction from large volumes of Chinese news summaries. Subsequently, we develop quantitative trading strategies using these sentiment factors and conduct back-tests in realistic scenarios. Our results will offer perspectives about the performances of Large Language Models applied to extracting sentiments from Chinese news texts.
研究动机与目标
- 评估 LLM 在从中文金融新闻中提取用于交易决策的情感因素方面的有效性。
- 提供一个标准化的基准测试与回测程序,以实现模型之间的客观比较。
- 在此任务中比较一个生成型 LLM、一个语言特定的预训练模型,以及一个金融领域的微调模型。
提出的方法
- 将三种模型应用于市场开盘前的 394,429 条中文新闻摘要的情感提取。
- 对于 ChatGPT,使用提示将情感分类为 Good (1)、Not Sure (0) 或 Bad (-1),并在来源之间取平均。
- 使用 Erlangshen-RoBERTa-110M-Sentiment,在 WuDao 中文语料库上进行预训练,输出情感概率。
- 开发中文 FinBERT,作为领域特定的微调分类器,基于人工标注数据进行训练。
- 基于情感排序构建交易组合,并以标准化的交易参数进行回测。
- 在统一框架下,使用超额收益、风险调整后收益和胜率评估表现。

实验结果
研究问题
- RQ1不同的 LLM(生成型、语言特定的预训练模型、领域特定的微调模型)是否能够有效从中文金融新闻中提取情感因素?
- RQ2在标准化回测框架下,情感衍生因素如何转化为交易表现?
- RQ3在中文金融领域中,语言或领域特定的预训练是否比非常大的模型更有利于情感提取?
主要发现
| Factor Name | Annual Excess Return (%) | Annual Net Asset Return (%) | Win Rate(%) | Sharpe Ratio |
|---|---|---|---|---|
| Chinese-GPT | 23.1 | 11.04 | 57.49 | 0.6406 |
| Chinese-FinBERT | 19.79 | 7.73 | 57.19 | 0.4797 |
| Erlangshen-110M | 24.01 | 11.95 | 58.38 | 0.678 |
- Erlangshen-110M-Sentiment 在年度超额收益、年度净资产收益、胜率和夏普比率等方面均领先于其他因子。
- 分组分析显示 Erlangshen 因子值较高与较高的超额收益显著相关。
- 在基准中,较小的 Erlangshen 模型相对于更大模型显示出更优的表现。
- 语言特定的预训练与领域特定的微调在中文金融领域可提供强情感信号,而不一定需要非常大规模的模型。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。