[논문 리뷰] Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models
이 논문은 외부 지식 검색을 활용한 지시-조정 LLM 프레임워크를 금융 감성 분석에 적용하여 정확도와 F1 점수를 향상시키고, 기초 모델 및 일반 목적 LLM보다 성능이 우수함을 보여준다.
Financial sentiment analysis is critical for valuation and investment decision-making. Traditional NLP models, however, are limited by their parameter size and the scope of their training datasets, which hampers their generalization capabilities and effectiveness in this field. Recently, Large Language Models (LLMs) pre-trained on extensive corpora have demonstrated superior performance across various NLP tasks due to their commendable zero-shot abilities. Yet, directly applying LLMs to financial sentiment analysis presents challenges: The discrepancy between the pre-training objective of LLMs and predicting the sentiment label can compromise their predictive performance. Furthermore, the succinct nature of financial news, often devoid of sufficient context, can significantly diminish the reliability of LLMs' sentiment analysis. To address these challenges, we introduce a retrieval-augmented LLMs framework for financial sentiment analysis. This framework includes an instruction-tuned LLMs module, which ensures LLMs behave as predictors of sentiment labels, and a retrieval-augmentation module which retrieves additional context from reliable external sources. Benchmarked against traditional models and LLMs like ChatGPT and LLaMA, our approach achieves 15\% to 48\% performance gain in accuracy and F1 score.
연구 동기 및 목표
- 전통적인 NLP 및 일반형 LLM이 금융 감성 분석에서 맥락 제한 및 훈련 목표 불일치로 야기하는 한계를 다룬다.
- 지시-tuning과 외부 지식 검색을 결합한 재검색-강화 LLM 프레임워크를 제안한다.
- 확립된 금융 감성 벤치마크에서 성능 향상을 시연한다.
- RAG가 뉴스 및 트윗과 같은 간결한 금융 텍스트의 예측을 개선함을 보인다.
제안 방법
- 다수의 사람 작성 지시문으로 형식을 갖춘 금융 감성 분석용 지시 이행 데이터셋을 구성한다.
- 관계없음? (원문에 있는 내용 그대로 유지하려고 합니다) causal language modeling 목표를 사용하여 Llama-7B 같은 오픈소스 LLM을 미세조정하고 감성 레이블을 예측한다.
- 생성된 출력물을 사전 정의된 감성 분류(음성/중립/긍정)로 매핑한다.
- 다중 소스 질의를 통한 외부 소스(Bloomberg, Reuters, Goldman Sachs, Seeking Alpha, Twitter, Reddit)에서 맥락을 검색하는 Retrieval-Augmented Generation 모듈을 구현한다.
- 2단계 검색을 사용한다: 1) 다중 소스 지식 질의, 2) overlap coefficient(Szymkiewicz-Simpson) 기반의 유사도 검색을 사용하여 임계값 >0.8로 관련 맥락을 선택한다.
- FPB, Twitter Val 및 추가 데이터셋에서 정확도와 F1-점수로 평가하며 FinBERT, BloombergGPT, Llama-7B, ChatGLM2-6B, 그리고 ChatGPT-4와 비교한다.
실험 결과
연구 질문
- RQ1지시-튜닝이 LLM의 금융 감성 레이블 예측 행동을 표준 사전 학습 목표보다 더 효과적으로 맞출 수 있는가?
- RQ2짧은 입력(뉴스 헤드라인 및 트윗)에 외부 금융 맥락을 제공하여 재검색-강화 생성이 유의미한 향상을 제공하는가?
- RQ3제안된 프레임워크의 성능이 최첨단 금융 감성 모델 및 일반 목적 LLM에 비해 어떤가?
- RQ4RAG를 추가하면 벤치마크 데이터셋(FPB, Twitter Val) 및 사례 연구에서 감정 예측에 어떤 영향을 미치는가?
주요 결과
| Model | FPB Acc | FPB F1 | Twitter Val Acc | Twitter Val F1 |
|---|---|---|---|---|
| FinBERT | - | - | 0.725 | 0.668 |
| BloombergGPT | - | - | 0.510 | - |
| ChatGLM2-6B | 0.474 | 0.402 | 0.482 | 0.381 |
| Llama-7B | 0.601 | 0.397 | 0.544 | 0.363 |
| ChatGPT 4.0 | 0.643 | 0.511 | 0.788 | 0.652 |
| Ours | 0.758 | 0.739 | 0.863 | 0.811 |
- Instruction-tuned Llama-7B가 FPB 및 Twitter Val에서 baselines를 능가하는 높은 성능을 달성한다.
- RAG를 적용하면 모델의 정확도와 F1이 추가로 개선되어 여러 구성에서 ChatGPT-4를 능가한다.
- FPB와 Twitter Val에서 제안 방법은 최적 구성에서 RAG 없이 0.758 Acc / 0.739 F1, RAG 적용 시 0.863 Acc / 0.811 F1에 도달한다.
- RAG 없이도 ChatGPT-4.0은 Twitter Val에서 0.788 Acc / 0.652 F1, FPB에서 0.643/0.511(표 I)이며, RAG를 적용하면 Twitter Val에서 0.813 Acc / 0.708 F1에 도달한다(표 II).
- RAG를 적용한 우리의 방법은 Twitter Val에서 0.881 Acc / 0.842 F1을 달성한다(표 II).
- 사례 연구에서 RAG가 가져온 맥락을 활용해 애매한 진술을 더 정확한 긍정적 감정으로 전환할 수 있음을 보여준다(표 III).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.