QUICK REVIEW

[논문 리뷰] Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models

Alejandro Lopez-Lira, Yuehua Tang|arXiv (Cornell University)|2023. 04. 15.

Stock Market Forecasting Methods인용 수 8

한 줄 요약

이 논문은 ChatGPT와 다른 대형 언어 모델이 헤드라인으로 주가 수익률을 예측할 수 있는지 평가하며, 긍정적인 상관관계와 ChatGPT가 전통적인 감성 방법을 능가하는 성과를 보이고, ChatGPT-4가 가장 강력한 결과를 제공한다는 결론을 제시한다.

ABSTRACT

We document the capability of large language models (LLMs) like ChatGPT to predict stock market reactions from news headlines without direct financial training. Using post-knowledge-cutoff headlines, GPT-4 captures initial market responses, achieving approximately 90% portfolio-day hit rates for the non-tradable initial reaction. GPT-4 scores also significantly predict the subsequent drift, especially for small stocks and negative news. Forecasting ability generally increases with model size, suggesting that financial reasoning is an emerging capacity of complex LLMs. Strategy returns decline as LLM adoption rises, consistent with improved price efficiency. To rationalize these findings, we develop a theoretical model that incorporates LLM technology, information-processing capacity constraints, underreaction, and limits to arbitrage.

연구 동기 및 목표

대형 언어 모델이 텍스트 정보를 사용해 주가 수익률을 예측할 수 있는지 여부를 제기한다.
ChatGPT와 경쟁 LLM이 헤드라인에서 신호를 추출해 다음 날 수익률을 예측하는 능력을 평가한다.
LLM 기반 신호를 전통 벤더 감성 점수와 비교한다.
거래 비용을 고려한 장단기 포지션으로 투자 성과를 정량화하고 내성(robustness)을 평가한다.
점진적으로 더 발전된 모델(GPT-1, GPT-2, BERT, ChatGPT 계열)의 수익 예측 가능성을 탐구한다.

제안 방법

CRSP의 미국 주식 수익률과 RavenPack 데이터에 매칭된 주요 매체의 헤드라인을 데이터셋으로 구성한다.
각 헤드라인을 prescribed prompt를 통해 ChatGPT 점수(YES=1, UNKNOWN=0, NO=-1)로 변환하고 일별로 헤드라인을 합산한다.
다음 날 수익률을 ChatGPT 점수와 경쟁 감성 점수에 대해 기업 고정효과 및 날짜 고정효과를 포함한 샘플 밖 예측 회귀를 수행한다.
양의/음의 ChatGPT 신호를 기반으로 제로 코스트 롱쇼트 포트폴리오를 형성하고 거래 비용 유무에 따른 성과를 평가한다.
ChatGPT-3.5, ChatGPT-4, BART Large, 기본 모델(GPT-1, GPT-2, BERT) 간 성과를 비교한다.
추천의 정확성과 그에 대한 명시적 추론 단어를 연결하는 새로운 방법을 사용해 모델의 추론을 평가한다.

실험 결과

연구 질문

RQ1ChatGPT 파생 헤드라인 감성이 전통적 감성 지표를 넘어 다음 날 주가 수익률을 예측할 수 있는가?
RQ2더 발전된 LLM(ChatGPT-4 등)이 초기 모델 및 기본 NLP 모델보다 강한 예측력을 보이는가?
RQ3시장 반응 미적용으로 인한 수익 예측 가능성이 존재하며 소형주와 악재 뉴스에 대해 더 강하게 나타나는가?
RQ4LLM 기반 신호를 포함하는 것이 실무 거래 전략의 샤프 비율을 개선하는가?

주요 결과

ChatGPT-3.5 신호는 다음 날 수익률과 유의하게 관련이 있으며, -1에서 +1로의 변화는 약 51.8bp의 다음 날 수익률을 예측한다.
ChatGPT-3.5를 기반으로 한 자기자본 롱쇼트 전략은 2021-10부터 2022-12까지 비용 없이 누적 수익률이 550%를 초과했고, 거래 비용 10-25bp를 반영하면 누적 수익률은 각각 350%와 50%이다.
ChatGPT-4 롱쇼트 전략은 누적 수익률 350% 이상, 샤프 비율 3.8, 최대 낙폭 -10.4%를 기록하며 ChatGPT-3.5의 성과(샤프 3.1; 낙폭 -22.8%)를 능가한다.
회귀분석에 두 신호(ChatGPT 및 전통 벤더 감성 점수)를 모두 포함시키면 ChatGPT가 우수하고 벤더 점수는 더 이상 유의하지 않다.
예측 가능성은 소형주와 대형주 모두에서 나타나나, 소형주와 악재 뉴스에서 더 강하게 나타나며 차익거래의 한계를 시사한다.
GPT-1, GPT-2, BERT는 주가 예측 능력이 거의 없거나 미미하며, 더 크고 강력한 모델의 가치를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.