QUICK REVIEW

[论文解读] Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models

Alejandro Lopez-Lira, Yuehua Tang|arXiv (Cornell University)|Apr 15, 2023

Stock Market Forecasting Methods被引用 8

一句话总结

本论文评估 ChatGPT 及其他大语言模型是否能从新闻头条预测股票收益，发现存在正相关，且 ChatGPT 优于传统情感方法，ChatGPT-4 效果最强。

ABSTRACT

We document the capability of large language models (LLMs) like ChatGPT to predict stock market reactions from news headlines without direct financial training. Using post-knowledge-cutoff headlines, GPT-4 captures initial market responses, achieving approximately 90% portfolio-day hit rates for the non-tradable initial reaction. GPT-4 scores also significantly predict the subsequent drift, especially for small stocks and negative news. Forecasting ability generally increases with model size, suggesting that financial reasoning is an emerging capacity of complex LLMs. Strategy returns decline as LLM adoption rises, consistent with improved price efficiency. To rationalize these findings, we develop a theoretical model that incorporates LLM technology, information-processing capacity constraints, underreaction, and limits to arbitrage.

研究动机与目标

提出问题：大型语言模型是否能利用文本信息预测股票收益。
评估 ChatGPT 和竞争性 LLMs 从新闻头条提取信号以预测次日收益的能力。
将基于 LLM 的信号与传统供应商情感分数进行比较。
使用多头/空头策略量化投资绩效，并评估交易成本的鲁棒性。
探索逐步更先进模型（GPT-1、GPT-2、BERT、ChatGPT 变体）在收益可预测性方面的能力。

提出的方法

构建来自 CRSP 的美国股票收益数据集，并将头条与 RavenPack 数据匹配的主要新闻源头条相结合。
通过规定的提示将每条头条转化为 ChatGPT 得分（YES=1，UNKNOWN=0，NO=-1），并按日对头条进行聚合。
在含公司固定效应和日期固定效应的情形下，进行次日收益对 ChatGPT 得分和对手情感分数的样本外预测回归。
基于正/负 ChatGPT 信号构建零成本多头/空头投资组合，并在有无交易成本情况下评估表现。
比较 ChatGPT-3.5、ChatGPT-4、BART Large 与基础模型（GPT-1、GPT-2、BERT）的表现。
使用一种新方法评估模型推理，将推荐正确性与其显式推理词联系起来以评估推理能力。

实验结果

研究问题

RQ1 ChatGPT 派生头条情绪是否能预测次日股票收益，且超越传统情绪指标？
RQ2更先进的 LLM（如 ChatGPT-4）是否比早期模型和基础 NLP 模型具有更强的预测能力？
RQ3回报可预测性是否受市场低效驱动，对小盘股与负面新闻股票的效应更强？
RQ4将基于 LLM 的信号纳入实际交易策略是否能提升夏普比率？

主要发现

ChatGPT-3.5 的信号与次日收益显著相关；从-1 提升到 +1 的变动大约预测次日收益的 51.8 个基点。
基于 ChatGPT-3.5 的自融资多头/空头策略在 2021-10 至 2022-12 期间无成本情况下累计回报超过 550%；若考虑 10-25 个基点的交易成本，累计回报分别为 350% 和 50%。
ChatGPT-4 的多头/空头策略累计回报超过 350%，夏普比率为 3.8，最大回撤为 -10.4%，优于 ChatGPT-3.5（夏普 3.1；回撤 -22.8%）。
在回归中同时包含传统供应商情感分数时，ChatGPT 的性能优于传统情感分数；供应商分数在回归中变得不显著。
可预测性存在于小盘股和大盘股中，但对小盘股和负面消息股票的影响更强，提示套利限制效应。
GPT-1、GPT-2 与 BERT 显示出极少或没有股票预测能力，凸显了更大、更强大的模型的附加价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。