Skip to main content
QUICK REVIEW

[论文解读] SentiLR: Linguistic Knowledge Enhanced Language Representation for Sentiment Analysis.

Pei Ke, Haozhe Ji|arXiv (Cornell University)|Nov 6, 2019
Topic Modeling参考文献 51被引用 27
一句话总结

SentiLR 是一种新颖的语言表示模型,通过在预训练过程中整合词级语言知识——词性标注和基于 SentiWordNet 的情感极性——来增强情感分析。它提出了一种标签感知的掩码语言模型(LA-MLM),包含两个子任务:在给定句子级情感标签的情况下恢复语言知识,以及利用知识增强的上下文预测标签,在句子级和方面级情感分析任务上实现了最先进(SOTA)的性能表现。

ABSTRACT

Most of the existing pre-trained language representation models neglect to consider the linguistic knowledge of texts, whereas we argue that such knowledge can promote language understanding in various NLP tasks. In this paper, we propose a novel language representation model called SentiLR, which introduces word-level linguistic knowledge including part-of-speech tag and prior sentiment polarity from SentiWordNet to benefit the downstream tasks in sentiment analysis. During pre-training, we first acquire the prior sentiment polarity of each word by querying the SentiWordNet dictionary with its part-of-speech tag. Then, we devise a new pre-training task called label-aware masked language model (LA-MLM) consisting of two subtasks: 1) word knowledge recovering given the sentence-level label; 2) sentence-level label prediction with linguistic knowledge enhanced context. Experiments show that SentiLR achieves state-of-the-art performance on several sentence-level / aspect-level sentiment analysis tasks by fine-tuning, and also obtain comparative results on general language understanding tasks.

研究动机与目标

  • 为解决现有预训练语言模型在利用语言知识以提升情感理解方面的局限性。
  • 探究将词性标注和来自 SentiWordNet 的先验情感极性整合是否能增强情感分析的表征学习能力。
  • 开发一种新的预训练目标,联合利用语言知识和句子级情感标签,以提升下游任务性能。
  • 在情感特定任务和通用语言理解任务上评估所提出模型的有效性。

提出的方法

  • 通过使用词性标注查询 SentiWordNet,为每个词获取先验情感极性。
  • 设计一种标签感知的掩码语言模型(LA-MLM),包含两个子任务:(1) 在给定句子级标签的情况下恢复被掩码的语言知识(词性标注和情感极性);(2) 利用融合语言知识的上下文预测句子级标签。
  • 在预训练过程中,通过将模型条件设置为词性标注和情感得分,将语言知识整合到输入表示中。
  • 使用 LA-MLM 目标在大规模文本上预训练 SentiLR,以对齐上下文表征与语言特征及情感标签。
  • 在下游情感分析任务(包括句子级和方面级情感分类)上微调所得模型。
  • 在情感分析基准和通用 NLP 任务上评估性能,以评估其迁移能力和有效性。

实验结果

研究问题

  • RQ1整合词性标注和 SentiWordNet 情感极性是否能提升情感分析的语言表征能力?
  • RQ2一种利用语言知识的标签感知掩码语言建模目标是否能提升情感分类任务的性能?
  • RQ3SentiLR 在情感特定和通用语言理解基准上与现有预训练模型相比表现如何?
  • RQ4语言知识的引入在多大程度上增强了情感分析中的零样本或少样本迁移学习能力?

主要发现

  • SentiLR 在微调后于多个句子级情感分析基准上实现了最先进(SOTA)性能。
  • 该模型在方面级情感分析任务上也取得了具有竞争力的结果,证明其在细粒度情感理解方面的有效性。
  • SentiLR 在通用语言理解任务上的表现可与强大的通用语言模型相媲美,表明其具备广泛的迁移能力。
  • 消融实验证实,语言知识的整合与 LA-MLM 预训练目标均对性能提升有显著贡献。
  • 使用 SentiWordNet 衍生的情感极性和词性标注增强了模型捕捉上下文中情感相关特征的能力。
  • 标签感知的预训练目标改善了上下文表征与情感标签之间的对齐,从而提升了下游任务的准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。