QUICK REVIEW

[論文レビュー] Financial Statement Analysis with Large Language Models

Alex Kim, Maximilian Muhn|arXiv (Cornell University)|Jul 25, 2024

Stock Market Forecasting Methods被引用数 12

ひとこと要約

本論文は、LLM（GPT-4）が匿名化された財務諸表を分析し、将来の利益の方向性を予測できることを示し、人間のアナリストを上回り、狭義のMLモデルと同等かそれ以上を達成すること、そして物語的洞察が性能を牽引することを示している。

ABSTRACT

We investigate whether large language models (LLMs) can successfully perform financial statement analysis in a way similar to a professional human analyst. We provide standardized and anonymous financial statements to GPT4 and instruct the model to analyze them to determine the direction of firms' future earnings. Even without narrative or industry-specific information, the LLM outperforms financial analysts in its ability to predict earnings changes directionally. The LLM exhibits a relative advantage over human analysts in situations when the analysts tend to struggle. Furthermore, we find that the prediction accuracy of the LLM is on par with a narrowly trained state-of-the-art ML model. LLM prediction does not stem from its training memory. Instead, we find that the LLM generates useful narrative insights about a company's future performance. Lastly, our trading strategies based on GPT's predictions yield a higher Sharpe ratio and alphas than strategies based on other models. Our results suggest that LLMs may take a central role in analysis and decision-making.

研究の動機と目的

財務諸表分析を行うために、数値データのみを用いて大規模言語モデルが専門家アナリストのように分析できるかを評価する。
LLMの性能を人間アナリストおよび狭義MLモデル（ロジスティック回帰とANN）と比較して、利益の方向性を予測する。
思考連鎖型 prompting（CoT）によってLLMの性能が向上するか、LLMの物語性が価値を付加するかを調査する。
LLM予測の経済的有用性を資産価格付けと取引パフォーマンスの観点から検討する。）

提案手法

GPT-4 Turboへ標準化・匿名化されたバランスシートと損益計算書を narratives textなしで提供する。
二つの prompting レジームを用いる：シンプルなプロンプトと、アナリストの推論を模倣するCoTプロンプト。
IBESのアナリストのコンセンサス予測および5年間のロールフォワードのアウト・オブ・サンプル予測に対して予測を評価する。
GPT-4のCoT性能を、同じ財務諸表データで訓練されたロジスティック回帰と人工ニューラルネットワークと比較する。
埋め込みを用いて補助予測子を訓練し、GPTの予測的物語が将来の利益に関する情報を含むか分析する。

実験結果

リサーチクエスチョン

RQ1数値財務諸表データのみを用いて、 narrative コンテキストなしで経済的洞察を生成し、利益の方向性を予測できるか。
RQ2LLMの性能は人間アナリストおよび狭義MLモデルと比較して、利益の方向性予測でどのように位置づけられるか。
RQ3思考連鎖 prompting と物語生成はLLM予測を向上させ、LLM物語の付加価値はどの程度か。
RQ4他のベンチマークと比較して、LLM予測は資産価格付けと取引戦略にとって経済的に有用か。
RQ5LLMの予測はモデルの訓練ウィンドウを超えたアウト・オブ・サンプルで一般化するか。

主な発見

CoTプロンプトを用いたGPT-4は、来年の利益の方向性を予測する精度が60%に達し、本研究の平均アナリスト指標を上回る。
GPT-4の精度は、同じデータで訓練した最先端のANNと同等かやや高く、GPTのF1スコアが高い。
CoTプロンプトで生成された物語は、埋め込みベースのモデルで用いだすと利益の方向性を競争力のある精度で予測する情報を含んでおり、知見が性能を後押しすることを示唆する。
GPTの予測は取引上の関連性を生み出し、GPT予測に基づく長短戦略は特に小型株で有意なアルファとシャープレシオを生み出す。
モデルの有効性は訓練データの記憶によるものではなく、2023年データのアウト・オブ・サンプル検証で訓練ウィンドウを超える性能を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。