[论文解读] FinBERT: Financial Sentiment Analysis with Pre-trained Language Models
FinBERT,是一个针对金融领域微调的基于BERT的模型,在金融情感分析数据集(Financial PhraseBank 和 FiQA)上利用领域自适应预训练和仔细的微调策略,达到了目前的最先进结果。
Financial sentiment analysis is a challenging task due to the specialized language and lack of labeled data in that domain. General-purpose models are not effective enough because of the specialized language used in a financial context. We hypothesize that pre-trained language models can help with this problem because they require fewer labeled examples and they can be further trained on domain-specific corpora. We introduce FinBERT, a language model based on BERT, to tackle NLP tasks in the financial domain. Our results show improvement in every measured metric on current state-of-the-art results for two financial sentiment analysis datasets. We find that even with a smaller training set and fine-tuning only a part of the model, FinBERT outperforms state-of-the-art machine learning methods.
研究动机与目标
- 通过利用在通用语料库上训练并进一步适应金融文本的预训练语言模型,推动改进的金融情感分析。
- 在 Financial PhraseBank 和 FiQA 任务1 上评估 FinBERT 相对于强基线(使用 GloVe/ELMo 的 LSTM、ULMFiT)和最先进方法的性能。
- 研究领域自适应预训练和训练策略对缓解灾难性遗忘的影响。
- 研究哪些编码器层和微调策略在句子级金融情感分类中能带来最佳性能。
提出的方法
- 通过构建一个基于BERT的金融情感任务分类器来开发 FinBERT。
- 在金融领域语料库(TRC2-financial)以及任务特定训练集上进行进一步预训练的实验。
- 通过在 [CLS] token 上添加一个全连接层来进行分类,并使用任务特定数据进行微调。
- 采用防止灾难性遗忘的训练策略:slanted triangular learning rates、discriminative fine-tuning 和 gradual unfreezing。
- 在 Financial PhraseBank(classification)和 FiQA Sentiment(regression)上使用合适的评估指标对 FinBERT 进行评估。
- 与 LSTM(GloVe/ELMo)和 ULMFit 基线进行比较并报告 macro-F1、准确率和损失;评估时使用10折交叉验证。
实验结果
研究问题
- RQ1RQ1:与 ELMo 和 ULMFit 相比,FinBERT 在短句金融情感分类上的表现如何?
- RQ2RQ2:FinBERT 与 Financial PhraseBank 和 FiQA 情感任务的最先进结果相比如何?
- RQ3RQ3:对金融领域语料进行进一步预训练的影响(相对于任务语料)对分类性能有何影响?
- RQ4RQ4:如 slanted triangular learning rates、discriminative fine-tuning 和 gradual unfreezing 这样的训练策略是否能防止灾难性遗忘并提升性能?
- RQ5RQ5:哪一层 BERT 编码器对分类性能贡献最大?
- RQ6RQ6:需要微调多少层才能达到接近最大性能?
主要发现
- FinBERT 在 Financial PhraseBank 数据集上实现了相对于实现的基线和若干已发表模型的最先进结果。
- 在 FiQA Sentiment 上,FinBERT 在 MSE 和 R^2 指标上均优于现有方法(通过10折交叉验证)。
- 在金融领域语料库上的进一步预训练带来与任务特定预训练相当的增益,在某些设置中观察到的差异很小。
- 用于缓解灾难性遗忘的训练策略(gradual unfreezing、discriminative fine-tuning 和 slanted triangular learning rates)在一起使用时能获得最佳的测试损失和准确率。
- 最后一层编码器通常为句子分类提供最佳性能,尽管不同层在各指标上贡献不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。