[논문 리뷰] AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework
이 논문은 AlphaFin 데이터셋과 Stock-Chain 프레임워크를 제시합니다. 이는 미세 조정된 StockGPT와 검색-증강 생성(RAG)을 결합하여 주가 추세 예측 및 재무 Q&A를 다루고, ARR과 정확도에서 기준선보다 우수합니다.
The task of financial analysis primarily encompasses two key areas: stock trend prediction and the corresponding financial question answering. Currently, machine learning and deep learning algorithms (ML&DL) have been widely applied for stock trend predictions, leading to significant progress. However, these methods fail to provide reasons for predictions, lacking interpretability and reasoning processes. Also, they can not integrate textual information such as financial news or reports. Meanwhile, large language models (LLMs) have remarkable textual understanding and generation ability. But due to the scarcity of financial training datasets and limited integration with real-time knowledge, LLMs still suffer from hallucinations and are unable to keep up with the latest information. To tackle these challenges, we first release AlphaFin datasets, combining traditional research datasets, real-time financial data, and handwritten chain-of-thought (CoT) data. It has a positive impact on training LLMs for completing financial analysis. We then use AlphaFin datasets to benchmark a state-of-the-art method, called Stock-Chain, for effectively tackling the financial analysis task, which integrates retrieval-augmented generation (RAG) techniques. Extensive experiments are conducted to demonstrate the effectiveness of our framework on financial analysis.
연구 동기 및 목표
- 재무 분석 과제를 두 가지 작업으로 형식적으로 정의합니다: 주가 추세 예측과 재무 Q&A.
- 전통적 데이터셋, 실시간 데이터 및 CoT 데이터를 결합한 AlphaFin 데이터셋을 만들어 FinLLMs를 훈련합니다.
- 현실 가능하지 않은 정보 생성(hallucination)을 완화하고 분석에서 실시간 정보를 가능하게 하기 위해 RAG를 갖춘 Stock-Chain을 제안합니다.
- 광범위한 실험 및 소거 연구를 통해 Stock-Chain의 효과를 보여줍니다.
제안 방법
- LoRA를 사용해 AlphaFin 데이터셋에서 StockGPT를 미세조정하여 주가 추세 예측을 다루고 설명을 제공합니다.
- Stage-1 주가 추세 예측: 각 기업에 대한 문서를 검색하고 프롬프트를 구성한 후 상승/하락을 예측합니다; 상승으로 예측된 지수를 선택하고 시가총액 가중 포트폴리오로 ARR을 계산합니다.
- Stage-2 재무 Q&A: 벡터 DB를 구축하고 대략 요약 및 RefGPT를 통해 지식을 추출한 뒤 유사도 기반 검색을 수행하고 Stage-2 데이터로 StockGPT를 미세조정합니다; RAG가 활성화된 프롬프트로 응답을 생성합니다.
- RAG 구현은 BGE 벡터 임베딩, 코사인 유사도 검색, 지식 베이스의 지속적 업데이트를 포함합니다.
- 평가에는 Stage-1의 ARR, ACC, 위험 지표가 포함되며 Stage-2는 ROUGE 및 인간/GPT-4 평가를 포함합니다.
실험 결과
연구 질문
- RQ1AlphaFin 규모의 FinLLMs가 검색-증강 생성을 결합했을 때 최신 주가 추세 예측 성능을 달성할 수 있는가?
- RQ2RAG를 통해 실시간 지식을 통합하는 것이 기저 LLM과 비교해 재무 Q&A의 품질을 향상시키고 환각(hallucinations)을 감소시키는가?
- RQ3AlphaFin 구성 요소(데이터셋, CoT 데이터)가 StockGPT와 Stock-Chain의 성능에 기여하는 바는 무엇인가?
- RQ4ARR 및 사용자가 인식하는 효과 측면에서 Stock-Chain이 전통적 ML/DL 모델 및 일반 FinLLMs에 비해 어떻게 성능을 나타내는가?
주요 결과
| 모델 | ARR ↑ | AERR ↑ | ANVOL ↓ | SR ↑ | MD ↓ | CR ↑ | MDD ↓ | ACC ↑ |
|---|---|---|---|---|---|---|---|---|
| SSE50 | -1.0% | -2.7% | 19.3% | -0.054 | 45.9% | -0.023 | 29 | - |
| CSI 300 | 1.7% | 0 | 18.2% | 0.092 | 39.5% | 0.043 | 30 | - |
| SCI | 3.9% | 2.2% | 14.8% | 0.266 | 21.5% | 0.183 | 19 | - |
| CNX | 7.6% | 5.9% | 26.5% | 0.287 | 41.3% | 0.185 | 20 | - |
| Randomforest | 9.8% | 8.1% | 19.5% | 0.501 | 16% | 0.608 | 22 | 55.5% |
| RNN | 8.1% | 6.4% | 10.9% | 0.742 | 15.7% | 0.515 | 12 | 54.1% |
| BERT | 10.7% | 9.0% | 16.1% | 0.664 | 13.5% | 0.852 | 14 | 51.4% |
| GRU | 11.2% | 9.5% | 13.7% | 0.814 | 14.6% | 0.765 | 21 | 54.7% |
| LSTM | 11.8% | 10.1% | 15.4% | 0.767 | 15.3% | 0.768 | 19 | 55.2% |
| Logistic | 12.5% | 10.8% | 27.1% | 0.463 | 32.5% | 0.385 | 18 | 54.8% |
| XGBoost | 13.1% | 11.4% | 20.5% | 0.633 | 20.9% | 0.619 | 17 | 55.9% |
| Decision Tree | 13.4% | 11.7% | 19.6% | 0.683 | 11.9% | 1.126 | 20 | 55.1% |
| ChatGLM2 | 8.1% | 6.4% | 24.9% | 0.324 | 62.6% | 0.126 | 26 | 49.5% |
| ChatGPT(3.5Turbo) | 14.3% | 12.6% | 27.7% | 0.516 | 53.6% | 0.267 | 23 | 51.4% |
| FinMa | 15.7% | 14.0% | 37.1% | 0.422 | 66.3% | 0.236 | 25 | 49.1% |
| FinGPT | 17.5% | 15.8% | 28.9% | 0.605 | 55.5% | 0.312 | 24 | 50.5% |
| Stock-Chain | 30.8% | 29.1% | 19.6% | 1.573 | 13.3% | 2.314 | 10 | 55.7% |
- Stock-Chain은 AlphaFin-Test Stage-1에서 평가된 모델 중 가장 높은 ARR(30.8%)과 ACC(55.63%)를 달성했습니다.
- 재무 보고서와 CoT 데이터로의 미세조정이 최상의 주가 추세 예측 결과를 낳아 원시 데이터만 사용하거나 단일 코호트 미세조정보다 우수합니다.
- RAG를 갖춘 Stock-Chain은 Stage-2 ROUGE 점수(예: ROUGE-1 0.4352, ROUGE-2 0.3056, ROUGE-L 0.4031)가 우수하고 인간-GPT-4 선호도에서도 강한 결과를 제공합니다.
- Stock-Chain은 재무 분석 과제에서 FinGPT 및 FinMA를 비롯한 기초 모델을 꾸준히 능가하며 ARR 이익이 크고 선호 평가도 유리합니다.
- 소거 연구는 News 및 Reports 데이터를 결합하는 것이 Stage-2 Q&A 성과(ROUGE 지표 및 내용 품질)에 최적임을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.