[논문 리뷰] Graph-Based Learning for Stock Movement Prediction with Textual and Relational Data
이 논문은 주식 수익률 예측을 향상시키기 위해 금융 뉴스의 텍스트적 감성과 다중 상관관계 그래프(예: 산업 부문, 상관관계, 공급망)를 동시에 모델링하는 그래프 기반 딥러닝 프레임워크인 다중 그래프 순환 네트워크(Multi-Graph Recurrent Network, MGRN)를 제안한다. 순환 아키텍처를 통해 다중 소스 상관관계 데이터와 시간 동적 패턴을 통합함으로써 MGRN은 10번째 백분위수에서 63.3%의 정확도를 기록하며, 정확도와 거래 시뮬레이션 모두에서 벤치마크를 초월하여 금융 예측에서 다중 상관관계 모델링의 가치를 입증한다.
Predicting stock prices from textual information is a challenging task due to the uncertainty of the market and the difficulty understanding the natural language from a machine's perspective. Previous researches focus mostly on sentiment extraction based on single news. However, the stocks on the financial market can be highly correlated, one news regarding one stock can quickly impact the prices of other stocks. To take this effect into account, we propose a new stock movement prediction framework: Multi-Graph Recurrent Network for Stock Forecasting (MGRN). This architecture allows to combine the textual sentiment from financial news and multiple relational information extracted from other financial data. Through an accuracy test and a trading simulation on the stocks in the STOXX Europe 600 index, we demonstrate a better performance from our model than other benchmarks.
연구 동기 및 목표
- 유사하거나 관련된 주식 간의 상호 영향을 간과하는 기존 모델이 주식을 상호 독립적으로 간주하는 한계를 해결하기 위해.
- 단일 정의된 상관관계 그래프만 사용하거나 뉴스의 시간 동적 패턴을 忽시하는 기존 모델의 격차를 메우기 위해.
- 다양한 금융 데이터 소스에서 유한한 수의 상관관계 그래프를 무제한으로 통합할 수 있는 확장 가능한 프레임워크를 개발하기 위해.
- 통합된 그래프 기반 아키텍처를 통해 텍스트 감성과 상관관계 정보를 동시에 모델링함으로써 주식 수익률 예측 정확도를 향상시키기 위해.
제안 방법
- 개별 금융 뉴스를 固定 길이의 벡터로 표현하기 위해 Universal Sentence Encoder를 활용한다.
- 가격 상관관계(Corr), GICS 산업 부문 계층 구조(Sector), 공급망 관계(Supply) 등 다양한 데이터 소스에서 다중 상관관계 그래프를 구축한다.
- 각 그래프 내에서 노드(주식) 간의 상관관계 정보를 집계하기 위해 다중 헤드 그래프 컬러션 네트워크(GCN)를 적용하여 연결된 주식 간 메시지 전달을 가능하게 한다.
- 뉴스 시퀀스의 시간 패턴을 모델링하기 위해 그래프 임bedded 특징을 양방향 장기 단기 기억망(Bi-LSTM) 네트워크와 통합한다.
- 시장 조정 수익률 기반 주식 수익률 변화(상승/하락) 분류를 위한 이진 교차 엔트로피 손실을 사용하여 엔드 투 엔드 MGRN 모델을 훈련시킨다.
- 다양한 상관관계 신호를 동시에 학습할 수 있도록, 다중 그래프 출력을 가중치 기반 융합 전략으로 통합한다.
실험 결과
연구 질문
- RQ1예를 들어 산업 부문, 상관관계, 공급망과 같은 다중 상관관계 그래프를 통합하면 단일 그래프 또는 무그래프 기반 벤치마크를 초월해 주식 수익률 예측 성능을 향상시킬 수 있는가?
- RQ2뉴스 시퀀스의 시간 동적 패턴을 고려할 경우, 뉴스를 상호 독립적으로 간주하는 것과 비교해 성능에 어떤 영향을 미치는가?
- RQ3다중 소스 상관관계 정보는 노이즈가 많거나 잘못된 단일 소스 그래프로 인한 예측 오차를 감소시키는가?
- RQ4MGRN 모델은 분류 정확도와 실제 세계의 거래 시뮬레이션 모두에서 기존 최첨단 모델을 얼마나 뛰어나게 성능을 냈는가?
주요 결과
- MGRN은 10번째 백분위수에서 63.3%의 정확도를 기록하며, 다음으로 우수한 모델인 MAN-SF(59.9%)와 순수 RNN(58.0%)를 크게 앞서며 뚜렷한 성능 우위를 보였다.
- 모든 세 개의 그래프(Corr, Sector, Supply)를 통합할 경우, 단일 그래프 대비 10번째 백분위수에서 5%의 정확도 향상과 20번째 백분위수에서 3.5%의 향상을 기록하여 다중 그래프 융합의 유용성을 입증했다.
- 거래 시뮬레이션에서 MGRN은 모든 벤치마크를 능가하며, 연간 수익률 74.0%(q=2)와 최고의 샤프 비율을 기록했으며, 블룸버그 감성 점수조차도 뛰어넘는 성능을 보였다.
- Tullow Oil(TLW LN)에 대한 사례 연구에서 MGRN-Sector는 긍정적인 내부자 뉴스 이후 -7.7% 수익률을 정확히 예측했지만, 순수 RNN은 관련 주식(Glencore 등)을 통해 전파된 부정적 신호로 인해 실패했다.
- GICS 분류의 산업 수준(GICS 정밀도 3단계)에서의 Sector 그래프가 가장 높은 성능을 보였으며, 10번째 백분위수에서 58.0%의 정확도를 기록하여 더 넓거나 더 세밀한 분류 수준보다 뛰어났다.
- 공급망 그래프와 같이 정확도가 떨어지는 단일 그래프가 존재할 수는 있으나, 다른 그래프와 융합함으로써 오류 전파를 완화시켜 다중 그래프 학습의 강건성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.