Skip to main content
QUICK REVIEW

[論文レビュー] HiSA-SMFM: Historical and Sentiment Analysis based Stock Market Forecasting Model

Ishu Gupta, Tarun Kumar Madan|arXiv (Cornell University)|Mar 10, 2022
Stock Market Forecasting Methods被引用数 27
ひとこと要約

HiSA-SMFM は、TextBlob と Tweepy を用いて Twitter の感情を歴史データと統合し、LSTM で学習して Tata Motors (NSE) の株価予測を改善する。

ABSTRACT

One of the pillars to build a country's economy is the stock market. Over the years, people are investing in stock markets to earn as much profit as possible from the amount of money that they possess. Hence, it is vital to have a prediction model which can accurately predict future stock prices. With the help of machine learning, it is not an impossible task as the various machine learning techniques if modeled properly may be able to provide the best prediction values. This would enable the investors to decide whether to buy, sell or hold the share. The aim of this paper is to predict the future of the financial stocks of a company with improved accuracy. In this paper, we have proposed the use of historical as well as sentiment data to efficiently predict stock prices by applying LSTM. It has been found by analyzing the existing research in the area of sentiment analysis that there is a strong correlation between the movement of stock prices and the publication of news articles. Therefore, in this paper, we have integrated these factors to predict the stock prices more accurately.

研究の動機と目的

  • 感情データを歴史価格とともに取り入れることで、株価予測の改善を促す。
  • 歴史データと多機能な感情信号を動的に統合できるモデルを開発する。
  • 歴史データと感情特徴の結合から将来の価格予測を学習するために LSTM を活用する。
  • 実在のインド株式(Tata Motors)でモデルを検証し、最先端のベースラインと比較する。

提案手法

  • Tweepy を用いて株式に関連するセンチメント信号の Twitter データを収集する。
  • TextBlob を適用して感情を positive、negative、neutral に分類し、パーセンテージ特徴量に変換する。
  • Tata Motors の NSE India から過去の株式特徴量(オープン価格など)を抽出する。
  • 感情のパーセンテージを歴史的特徴と組み合わせて多機能トレーニングセットを形成する。
  • 統合データセット上で LSTM ネットワークを訓練して将来の株価を予測する。

実験結果

リサーチクエスチョン

  • RQ1歴史価格データと Twitter 由来の感情を結合することで、歴史データのみを用いる場合より株価予測が改善されるか?
  • RQ2Tata Motors の株価予測における訓練エポック数の違いによって HiSA-SMFM モデルの性能はどうなるか?
  • RQ3マルチ特徴入力を用いた場合、DLPM ベースラインに対する HiSA-SMFM の相対的な性能向上はどの程度か?
  • RQ4多機能感情表現(positive/negative のパーセンテージ)を LSTM 予測に効果的に組み込むことができるか?

主な発見

Epoch sizeModelAccuracy
5DLPM [1]91.59%
5HiSA-SMFM95.41%
10DLPM [1]94.56%
10HiSA-SMFM97.18%
15DLPM [1]83.46%
15HiSA-SMFM92.38%
  • HiSA-SMFM はエポックサイズ 5, 10, 15 を通じて DLPM ベースラインより高い精度を達成する。
  • エポック5では、DLPM: 91.59% 対 HiSA-SMFM: 95.41%。
  • エポック10では、DLPM: 94.56% 対 HiSA-SMFM: 97.18%。
  • エポック15では、DLPM: 83.46% 対 HiSA-SMFM: 92.38%。
  • 平均精度: DLPM 89.87%、HiSA-SMFM 94.99%、HiSA-SMFM が >5% 改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。