Skip to main content
QUICK REVIEW

[논문 리뷰] FinBERT: Financial Sentiment Analysis with Pre-trained Language Models

Dogu Araci|arXiv (Cornell University)|2019. 08. 27.
Stock Market Forecasting Methods참고 문헌 33인용 수 160
한 줄 요약

FinBERT은 금융에 맞춰 미세조정된 BERT 기반 모델로, 도메인 적응 사전 학습과 신중한 미세조정 전략을 사용하여 금융 감성 분석 데이터셋(Financial PhraseBank와 FiQA)에서 최첨단 성과를 달성한다.

ABSTRACT

Financial sentiment analysis is a challenging task due to the specialized language and lack of labeled data in that domain. General-purpose models are not effective enough because of the specialized language used in a financial context. We hypothesize that pre-trained language models can help with this problem because they require fewer labeled examples and they can be further trained on domain-specific corpora. We introduce FinBERT, a language model based on BERT, to tackle NLP tasks in the financial domain. Our results show improvement in every measured metric on current state-of-the-art results for two financial sentiment analysis datasets. We find that even with a smaller training set and fine-tuning only a part of the model, FinBERT outperforms state-of-the-art machine learning methods.

연구 동기 및 목표

  • 일반 코퍼스에서 학습된 사전 학습 언어 모델을 활용하고 금융 텍스트에 추가로 적응시켜 개선된 금융 감성 분석을 촉진한다.
  • Financial PhraseBank와 FiQA Task 1에서 강력한 베이스라인(LSTM with GloVe/ELMo, ULMFit) 및 최첨단과 비교하여 FinBERT를 평가한다.
  • 도메인 적응 사전 학습 및 학습 전략이 재앙적 망각(catastrophic forgetting)을 완화하는 영향을 조사한다.
  • 문장 수준의 금융 감성 분류에서 어떤 인코더 계층과 파인튜닝 전략이 최상의 성능을 내는지 연구한다.

제안 방법

  • 금융 감성 작업을 위한 BERT 기반 분류기를 구축하여 FinBERT를 개발한다.
  • 금융 도메인 코퍼스(TRC2-financial)와 작업별 학습 세트에서 추가 사전 학습을 실험한다.
  • [CLS] 토큰에 Dense 레이어를 추가하여 분류를 적용하고 작업별 데이터로 미세조정한다.
  • 재앙적 잊어버림을 방지하기 위한 학습 전략: 슬랜티드 삼각 학습률, 구별적 미세조정, 점진적 언프레이징
  • 적절한 지표로 Financial PhraseBank(분류)와 FiQA Sentiment(회귀)에서 FinBERT를 평가한다.
  • LSTM (GloVe/ELMo) 및 ULMFit 베이스라인과 비교하고 macro-F1, 정확도, 손실을 보고한다; 평가에는 10-fold 교차 검증을 사용한다.

실험 결과

연구 질문

  • RQ1RQ1: FinBERT가 ELMo 및 ULMFit과 비교할 때 짧은 문장 금융 감성 분류에서의 성능은 어떤가?
  • RQ2RQ2: FinBERT가 Financial PhraseBank와 FiQA 감성 작업에서 최첨단 결과와 어떻게 비교되는가?
  • RQ3RQ3: 금융 도메인에 대한 추가 사전 학습이 작업 코퍼스보다 분류 성능에 어떤 영향을 미치는가?
  • RQ4RQ4: 슬랜티드 삼각 학습률, 구별적 미세조정 및 점진적 언프레이징 같은 학습 전략이 재앙적 잊어버림을 방지하고 성능을 향상시키는가?
  • RQ5RQ5: 어떤 BERT 인코더 계층이 분류 성능에 가장 크게 기여하는가?
  • RQ6RQ6: 거의 최대 성능에 도달하기 위해 얼마의 레이어를 파인튜닝해야 하는가?

주요 결과

  • FinBERT는 구현된 베이스라인과 다수의 공개 모델과 비교하여 Financial PhraseBank 데이터세트에서 최첨단 결과를 달성한다.
  • FiQA Sentiment에서 FinBERT은 MSE와 R^2 지표 모두에서 기존 방법을 능가한다(10-fold 교차 검증을 통해).
  • Further pre-training on a financial-domain corpus provides comparable gains to task-specific pre-training, with marginal differences observed in some settings.
  • Training strategies to mitigate catastrophic forgetting (gradual unfreezing, discriminative fine-tuning, and slanted triangular learning rates) yield the best test loss and accuracy when used together.
  • The last encoder layer generally provides the best performance for sentence classification, though different layers contribute variably across metrics.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.