[논문 리뷰] HiSA-SMFM: Historical and Sentiment Analysis based Stock Market Forecasting Model
HiSA-SMFM은 과거 주가 데이터와 Twitter 감성 데이터를 TextBlob과 Tweepy를 사용하여 통합하고 LSTM으로 학습시켜 Tata Motors(NSE)의 주가 예측을 개선한다.
One of the pillars to build a country's economy is the stock market. Over the years, people are investing in stock markets to earn as much profit as possible from the amount of money that they possess. Hence, it is vital to have a prediction model which can accurately predict future stock prices. With the help of machine learning, it is not an impossible task as the various machine learning techniques if modeled properly may be able to provide the best prediction values. This would enable the investors to decide whether to buy, sell or hold the share. The aim of this paper is to predict the future of the financial stocks of a company with improved accuracy. In this paper, we have proposed the use of historical as well as sentiment data to efficiently predict stock prices by applying LSTM. It has been found by analyzing the existing research in the area of sentiment analysis that there is a strong correlation between the movement of stock prices and the publication of news articles. Therefore, in this paper, we have integrated these factors to predict the stock prices more accurately.
연구 동기 및 목표
- 과거 가격과 함께 감성 데이터를 포함시켜 주가 예측을 향상시키려는 동기를 제시한다.
- 다중 특징의 감성 신호를 역사 데이터와 동적으로 통합할 수 있는 모델을 개발한다.
- 역사적 특성과 감성 특성을 결합한 정보를 활용하여 미래 가격 예측을 위해 LSTM을 활용한다.
- 실제 인도 주식(Tata Motors)에서 모델을 검증하고 최신 기준선과 비교한다.
제안 방법
- Tweepy를 사용하여 주식 관련 감성 신호를 수집하기 위한 Twitter 데이터를 수집한다.
- TextBlob을 적용하여 감성을 긍정/부정/중립으로 분류하고 이를 백분율 특징으로 변환한다.
- Tata Motors의 NSE India에서 시가 등 과거 주식 특징을 추출한다.
- 감성 백분율을 역사적 특징과 결합하여 다중 특징 학습셋을 구성한다.
- 통합된 데이터셋에서 LSTM 네트워크를 학습시켜 향후 주가를 예측한다.
실험 결과
연구 질문
- RQ1과거 가격 데이터와 트위터에서 도출된 감성을 결합하는 것이 과거 데이터만 사용한 경우에 비해 주가 예측을 향상시키는가?
- RQ2다양한 학습 에포크에서 Tata Motors 주가를 예측할 때 HiSA-SMFM 모델의 성능은 어떻게 되는가?
- RQ3다중 특징 입력을 사용할 때 HiSA-SMFM의 DLPM 기준선 대비 상대 성능 향상은 어느 정도인가?
- RQ4다중 특징 감성 표현(양성/음성 백분율)을 LSTM 예측에 효과적으로 통합할 수 있는가?
주요 결과
| 에폭 크기 | 모델 | 정확도 |
|---|---|---|
| 5 | DLPM [1] | 91.59% |
| 5 | HiSA-SMFM | 95.41% |
| 10 | DLPM [1] | 94.56% |
| 10 | HiSA-SMFM | 97.18% |
| 15 | DLPM [1] | 83.46% |
| 15 | HiSA-SMFM | 92.38% |
- HiSA-SMFM은 5, 10, 15 에폭 크기에서 DLPM 기준선보다 더 높은 정확도를 달성한다.
- 에폭 5에서, DLPM: 91.59% 대 HiSA-SMFM: 95.41%.
- 에폭 10에서, DLPM: 94.56% 대 HiSA-SMFM: 97.18%.
- 에폭 15에서, DLPM: 83.46% 대 HiSA-SMFM: 92.38%.
- 평균 정확도: DLPM 89.87% 대 HiSA-SMFM 94.99%, HiSA-SMFM에서 >5% 향상.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.