Skip to main content
QUICK REVIEW

[論文レビュー] FinBERT: Financial Sentiment Analysis with Pre-trained Language Models

Dogu Araci|arXiv (Cornell University)|Aug 27, 2019
Stock Market Forecasting Methods参考文献 33被引用数 160
ひとこと要約

FinBERTは、finance向けに微調整されたBERTベースのモデルで、domain-adaptive pre-trainingと慎重なファインチューニング戦略を用いて、金融感情分析データセット(Financial PhraseBankとFiQA)で最先端の結果を達成します。

ABSTRACT

Financial sentiment analysis is a challenging task due to the specialized language and lack of labeled data in that domain. General-purpose models are not effective enough because of the specialized language used in a financial context. We hypothesize that pre-trained language models can help with this problem because they require fewer labeled examples and they can be further trained on domain-specific corpora. We introduce FinBERT, a language model based on BERT, to tackle NLP tasks in the financial domain. Our results show improvement in every measured metric on current state-of-the-art results for two financial sentiment analysis datasets. We find that even with a smaller training set and fine-tuning only a part of the model, FinBERT outperforms state-of-the-art machine learning methods.

研究の動機と目的

  • 一般コーパスで学習された事前学習済み言語モデルを活用し、金融テキストへさらに適応させることで、金融感情分析の改善を促す。
  • FinBERTを、強力なベースライン(GloVe/ELMoを用いたLSTM、ULMFiT)と、Financial PhraseBankおよびFiQA Task 1の最先端手法と比較評価する。
  • 崩壊的忘却を緩和するためのドメイン適応前学習とトレーニング戦略の効果を調査する。
  • 文レベルの金融感情分類で最良の性能をもたらすエンコーダ層とファインチューニング戦略を検討する。

提案手法

  • FinBERTを開発するには、金融感情タスクのためのBERTベースの分類器を構築する。
  • 財務ドメインコーパス(TRC2-financial)およびタスク固有の訓練セットでのさらなる事前学習を実験する。
  • [CLS]トークン上に全結合層を追加して分類を適用し、タスク固有データでファインチューニングする。
  • 崩壊的忘却を防ぐトレーニング戦略を採用する:slanted triangular learning rates、discriminative fine-tuning、gradual unfreezing。
  • Financial PhraseBank(分類)と FiQA Sentiment(回帰)に対して適切な指標でFinBERTを評価する。
  • LSTM(GloVe/ELMo)およびULMFitのベースラインと比較し、macro-F1、精度、損失を報告する;評価には10-fold cross-validationを使用する。

実験結果

リサーチクエスチョン

  • RQ1RQ1: FinBERTは、ELMoおよびULMFiTと比較して、短文の金融感情分類でどのように性能を示すか?
  • RQ2RQ2: FinBERTはFinancial PhraseBankおよびFiQAの感情タスクにおける最先端結果とどう比較されるか?
  • RQ3RQ3: 金融ドメインでのさらなる事前学習とタスクコーパスでの事前学習が分類性能に与える影響は?
  • RQ4RQ4: slanted triangular learning rates、discriminative fine-tuning、gradual unfreezing のようなトレーニング戦略は崩壊的忘却を防ぎ、性能を向上させるか?
  • RQ5RQ5: どのBERTエンコーダ層が分類性能に最も寄与するか?
  • RQ6RQ6: 最高性能に近づけるには、ファインチューニングするレイヤーはいくつ必要か?

主な発見

  • FinBERTは、実装済みのベースラインおよびいくつかの公表モデルと比較して、Financial PhraseBankデータセットで最先端の結果を達成する。
  • On FiQA Sentiment, FinBERT outperforms existing methods in both MSE and R^2 metrics (via 10-fold cross-validation).
  • Further pre-training on a financial-domain corpus provides comparable gains to task-specific pre-training, with marginal differences observed in some settings.
  • Training strategies to mitigate catastrophic forgetting (gradual unfreezing, discriminative fine-tuning, and slanted triangular learning rates) yield the best test loss and accuracy when used together.
  • The last encoder layer generally provides the best performance for sentence classification, though different layers contribute variably across metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。