[논문 리뷰] The Wall Street Neophyte: A Zero-Shot Analysis of ChatGPT Over MultiModal Stock Movement Prediction Challenges
본 논문은 가격 특성 및 트윗을 사용한 제로샷 다중모달 주가 변동 예측 과제에서 ChatGPT를 평가하고, 강력한 baselines와 비교하며 프롬프트 전략 및 설명가능성에 대해 분석한다.
Recently, large language models (LLMs) like ChatGPT have demonstrated remarkable performance across a variety of natural language processing tasks. However, their effectiveness in the financial domain, specifically in predicting stock market movements, remains to be explored. In this paper, we conduct an extensive zero-shot analysis of ChatGPT's capabilities in multimodal stock movement prediction, on three tweets and historical stock price datasets. Our findings indicate that ChatGPT is a "Wall Street Neophyte" with limited success in predicting stock movements, as it underperforms not only state-of-the-art methods but also traditional methods like linear regression using price features. Despite the potential of Chain-of-Thought prompting strategies and the inclusion of tweets, ChatGPT's performance remains subpar. Furthermore, we observe limitations in its explainability and stability, suggesting the need for more specialized training or fine-tuning. This research provides insights into ChatGPT's capabilities and serves as a foundation for future work aimed at improving financial market analysis and prediction by leveraging social media sentiment and historical stock data.
연구 동기 및 목표
- ChatGPT의 제로샷 성능을 다중모달 주가 변동 예측에서 역사적 가격 특성과 트윗을 사용해 평가한다.
- 프롬프트 설계, 특히 Chain-of-Thought를 포함한 프롬프트가 예측 정확도에 미치는 영향을 평가한다.
- 트윗 정보의 포함이 예측에 도움이 되는지 여부와 이 금융 맥락에서 모델의 설명가능성 동작을 조사한다.
제안 방법
- 주가 변동 예측을 상승/하강의 이진 분류 문제로 형식화하고, 날짜 T까지의 가격 특성과 트윗을 사용한다.
- 표준화된 전처리로 BIGDATA22, ACL18, CIKM18의 세 벤치마크 데이터셋에서 평가한다.
- 다양한 프롬프트를 테스트한다: 기본 제로샷 및 Chain-of-Thought(CoT) 프롬 prompting, 트윗이 포함된 CoT를 포함.
- ChatGPT를 다수의 baselines(LR, RF, LSTM 변형, DTML, StockNet, SLOT 등)와 비교한다.
- ACC와 MCC를 평가 지표로 사용하여 데이터셋 전반의 예측 성능을 평가한다.
실험 결과
연구 질문
- RQ1RQ1: 역사적 특징과 트윗을 사용한 다중모달 주가 변동 예측에서 제로샷 설정으로 ChatGPT의 성능은 어떤가?
- RQ2RQ2: Chain-of-Thought를 포함한 프롬프트 설계가 이 작업에서 ChatGPT의 성능을 향상시킬 수 있는가?
- RQ3RQ3: 트윗 정보를 포함시키는 것이 ChatGPT의 예측에 도움이 되거나 노이스를 유발하는가?
주요 결과
- ChatGPT는 일반적으로 최첨단 모델 및 전통적 방법에 비해 성능이 떨어지며, 일부 데이터셋에서 제한적인 이득을 보인다.
- Chain-of-Thought 프롬 prompting은 제한된 개선만을 가져오며 전문 모델과의 격차를 좁히지 못한다.
- 트윗 포함은 대부분의 데이터셋에서 ChatGPT의 성능을 높이는 데 기여하며, 다중모달 주가 예측에서 텍스트 데이터의 가치를 부각한다.
- ChatGPT는 CoT 프롬프트를 통해 설명을 제시할 수 있으나, 설명가능성이 다중모달 정보 융합으로 인한 예측 한계를 완전히 해소하지는 못한다.
- 데이터셋에 따라 성능 차이가 있으며(ChatGPT_zs가 CIKM18에서 ACC 55.43% 및 MCC 0.0111을 달성하는 반면 ACL18에서는 더 낮은 결과를 보임),
- 추론 분석은 트윗의 기여를 일반적으로 확인하지만 데이터셋에 따라 다르게 나타난다; 트윗 제거가 때로는 성능을 악화시키거나 데이터셋에 따라 도움이 되기도 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.