QUICK REVIEW

[논문 리뷰] Deep Learning Stock Volatility with Google Domestic Trends

Ruoxuan Xiong, Eric Nichols|arXiv (Cornell University)|2015. 12. 15.

Stock Market Forecasting Methods참고 문헌 22인용 수 46

한 줄 요약

이 논문은 구글 내수 검색 트렌드와 시장 데이터를 통합하여 S&P 500 변동성 예측을 위한 장기 단기 기억(장기 단기 기억, LSTM) 신경망 모델을 제안한다. 상호정보량을 최대화하는 최적의 관측 및 정규화 방식을 사용하여, LSTM는 보류된 테스트 세트에서 평균 절대 퍼센트 오차(MAPE) 24.2%를 기록하며, 선형 리지/라소 및 GARCH 기준 모델보다 최소 31% 우수한 성능을 보였다.

ABSTRACT

We have applied a Long Short-Term Memory neural network to model S&P 500 volatility, incorporating Google domestic trends as indicators of the public mood and macroeconomic factors. In a held-out test set, our Long Short-Term Memory model gives a mean absolute percentage error of 24.2%, outperforming linear Ridge/Lasso and autoregressive GARCH benchmarks by at least 31%. This evaluation is based on an optimal observation and normalization scheme which maximizes the mutual information between domestic trends and daily volatility in the training set. Our preliminary investigation shows strong promise for better predicting stock behavior via deep learning and neural network models.

연구 동기 및 목표

고소음 및 비선형 역학이 뚜렷한 환경에서 S&P 500 변동성 예측의 정확도를 향상시키기 위해.
구글 내수 검색 트렌드가 금융 모델링에서 공공의 감성 및 거시경제 조건의 효과적인 대체 지표로 기능하는지 조사하기 위해.
특히 LSTMs를 포함한 딥러닝 모델의 성능을 기존 선형 및 자기회귀 모델인 GARCH와 비교 평가하기 위해.
입력 특징의 예측 능력을 최대화하는 데 최적의 관측 및 정규화 체계를 규명하기 위해.

제안 방법

변동성 예측의 시간적 의존성을 모델링하기 위해 장기 단기 기억(LSTM) 순환 신경망을 사용한다.
외부 거시경제 감성 지표로 25개의 구글 내수 검색 트렌드(예: '파산', '모기지', '신용카드')를 통합한다.
일일 로그 수익률과 고가-저가-개시-종가 변동성 추정치(식 2)를 사용하여 실현 변동성을 계산한다.
입력 특징의 최적 관측 주기 및 정규화 방법을 결정하기 위해 상호정보량 기반 최적화 체계를 적용한다.
학습은 데이터의 70%(2004년 10월 19일부터 2012년 4월 9일까지)를, 테스트는 나머지 30%(2012년 4월 12일부터 2015년 7월 24일까지)를 사용하여 수행한다.
RMSE 및 MAPE 지표를 사용하여 모델 성능을 리지/라소 회귀 및 GARCH(1,1) 기준 모델과 비교한다.

실험 결과

연구 질문

RQ1구글 내수 검색 트렌드가 S&P 500 변동성 예측의 정확도를 향상시킬 수 있는가?
RQ2LSTM 모델이 변동성 예측에서 기존 선형 및 자기회귀 모델인 GARCH보다 우수한가?
RQ3이 맥락에서 예측 성능을 최대화하기 위한 최적의 관측 및 정규화 체계는 무엇인가?
RQ4외부 감성 데이터를 통합할 경우 LSTM 모델이 과적합을 얼마나 피하는가?

주요 결과

LSTM 모델은 테스트 세트에서 평균 절대 퍼센트 오차(MAPE) 24.2%를 기록하였으며, 리지/라소 및 GARCH 기준 모델보다 뚜렷이 뛰어나며, 이들의 MAPE는 최소 34.9%였다.
상호정보량을 최대화하는 방식으로 도출된 최적의 입력 체계는 검색 트렌드의 시간적 역학이 변동성 변화와 일치하도록 하여 모델 성능을 향상시켰다.
학습 세트의 MAPE(20%)가 테스트 세트의 MAPE(24.2%)와 유사하여 과적합이 최소화되었음을 보여주며, 안정적인 일반화 성능을 입증했다.
변동성, 수익률 및 '투자', 'bnkrpt'와 같은 주요 트렌드 6개 특징으로 입력 차원을 축소하면 MAPE가 27.2%로 증가하여 전체 특징 입력의 가치를 확인했다.
예측 오차는 평균이 0이며 유의미한 자기상관이 없지만, 콜모고로프-스미르노프 정규성 검정에서 p ≪ 1%로 비정규 오차 구조를 보였다.
다양한 입력 구성에 대해 모델 성능이 안정적이며, LSTM는 일관되게 선형 및 자기회귀 기준 모델을 앞서는 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.