[论文解读] Financial Statement Analysis with Large Language Models
该论文显示,一个大型语言模型(GPT-4)可以分析匿名财务报表并预测未来利润方向,表现超越人类分析师,达到甚至与狭窄ML模型相当或更好,叙事洞察推动其表现。
We investigate whether large language models (LLMs) can successfully perform financial statement analysis in a way similar to a professional human analyst. We provide standardized and anonymous financial statements to GPT4 and instruct the model to analyze them to determine the direction of firms' future earnings. Even without narrative or industry-specific information, the LLM outperforms financial analysts in its ability to predict earnings changes directionally. The LLM exhibits a relative advantage over human analysts in situations when the analysts tend to struggle. Furthermore, we find that the prediction accuracy of the LLM is on par with a narrowly trained state-of-the-art ML model. LLM prediction does not stem from its training memory. Instead, we find that the LLM generates useful narrative insights about a company's future performance. Lastly, our trading strategies based on GPT's predictions yield a higher Sharpe ratio and alphas than strategies based on other models. Our results suggest that LLMs may take a central role in analysis and decision-making.
研究动机与目标
- 评估大型语言模型是否能够仅使用数字数据像专业分析师一样进行财务报表分析。
- 将LLM的表现与人类分析师以及狭窄ML模型(逻辑回归和人工神经网络)在预测收益方向方面进行比较。
- 研究链式思考提示是否提升LLM性能,以及LLM叙事是否增加价值。
- 考察LLM预测在资产定价和交易表现方面的经济实用性。
提出的方法
- 向GPT-4 Turbo提供标准化且匿名化的资产负债表和利润表,且不附带叙述文本。
- 采用两种提示模式:简单提示和模仿分析师推理的链式思考(CoT)提示。
- 将预测与IBES的分析师一致性预测以及五年滚动的样本外预测进行对比。
- 将GPT-4的CoT表现与对同一财务报表数据训练的逻辑回归和人工神经网络进行比较。
- 通过使用嵌入训练辅助预测模型,分析GPT的预测叙事是否包含关于未来收益的信息。
实验结果
研究问题
- RQ1LLM 是否能够仅使用数值型财务报表数据而无需叙述文本就生成经济洞察并预测收益方向?
- RQ2LLM的表现相较于人类分析师和狭窄ML模型在预测收益方向方面如何?
- RQ3链式思考提示和叙事生成是否提升LLM预测能力,LLM叙事的增量价值是什么?
- RQ4相对于基准,LLM预测在资产定价和交易策略方面是否具有经济实用性?
- RQ5LLM预测是否在样本外超出模型的训练期具有泛化能力?
主要发现
- 经过链式思考提示的GPT-4在预测次年收益方向方面的准确性达到更高水平(60%),超过研究中的分析师基准平均水平。
- GPT-4的准确性与在相同数据上训练的最先进人工神经网络相当或略高,GPT的F1分数更高。
- 由CoT提示生成的叙事在嵌入式模型中用于预测收益方向时具有竞争力的准确性,表明洞察力推动了表现。
- GPT的预测具有交易相关性,基于GPT预测的多头/空头策略实现显著的阿尔法和夏普比率,尤其是小盘股。
- 模型的有效性并非由于记忆训练数据;对2023年数据的样本外测试证实其表现超出模型的训练区间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。