Skip to main content
QUICK REVIEW

[论文解读] Emotion Detection in Text: a Review

Armin Seyeditabari, Narges Tabari|arXiv (Cornell University)|Jun 2, 2018
Sentiment Analysis and Opinion Mining参考文献 50被引用 63
一句话总结

对文本情感检测的全面综述,概述心理模型、语言复杂性、数据资源,以及有监督/无监督方法,同时强调挑战与未来方向。

ABSTRACT

In recent years, emotion detection in text has become more popular due to its vast potential applications in marketing, political science, psychology, human-computer interaction, artificial intelligence, etc. Access to a huge amount of textual data, especially opinionated and self-expression text also played a special role to bring attention to this field. In this paper, we review the work that has been done in identifying emotion expressions in text and argue that although many techniques, methodologies, and models have been created to detect emotion in text, there are various reasons that make these methods insufficient. Although, there is an essential need to improve the design and architecture of current systems, factors such as the complexity of human emotions, and the use of implicit and metaphorical language in expressing it, lead us to think that just re-purposing standard methodologies will not be enough to capture these complexities, and it is important to pay attention to the linguistic intricacies of emotion expression.

研究动机与目标

  • 综述用于文本分析的情感心理模型(离散与维度式)。
  • 分析语言学复杂性(显性情感表达与隐性表达、比喻、语境、文化)。
  • 评估数据资源(带标签的数据集、情感词典和词嵌入)及其对模型发展的影响。
  • 总结文本情感检测的有监督与无监督方法,讨论当前的局限性与改进。

提出的方法

  • 讨论基于心理学的情感模型(Ekman、Plutchik、Circumplex)以及离散与维度化方法。
  • 描述表达情感时的语言学挑战(隐性表达、隐喻、语境、跨文化差异)。
  • 目录资源:带标签的文本(ISEAR、SemEval、童话数据集)、情感词典(NRC、WordNet-Affect、LIWC、ANEW)以及词嵌入(Word2Vec、GloVe、retrofitting)。
  • 回顾使用带有标签的微型博客数据(标签/表情符号)的有监督方法、特征集合(n-gram、词典、词性标注、依存句法分析)以及类别不平衡处理。
  • 总结无监督方法(NMF、LSA/PLSA、基于PMI的方法)以及基于规则/词典辅助的方法。
  • 突出未解问题:数据质量/数量、隐性表达、隐喻语言、语境,以及需要具备语言学信息的模型。

实验结果

研究问题

  • RQ1哪些模型能最好地捕捉文本中情感的离散与维度方面?
  • RQ2语言学复杂性(隐性表达、隐喻、语境)如何影响情感检测的性能?
  • RQ3哪些数据资源和词嵌入最有效地支持情感检测模型?
  • RQ4有监督与无监督方法的对比如何,以及在实践中的局限性?
  • RQ5文本情感检测的主要开放挑战与未来研究方向有哪些?

主要发现

  • 情感检测比情感分析更具挑战性,因为涉及多类别标注、隐性表达和语言学复杂性。
  • 情感标注数据集稀缺;研究人员依赖带噪声标签(标签、表情符号)的微型博客数据以及现有的情感词典。
  • 词嵌入和词典可以提升性能,但上下文和隐喻语言限制了简单词汇方法的有效性。
  • 有监督方法常因类别不平衡和领域/数据采集问题而受限;常识知识和高级表示可以带来竞争性结果。
  • 无监督方法(如矩阵分解、PMI 基于方法)可以实现有意义的性能,在某些场景下有时接近有监督方法。
  • 总体而言,鲁棒的情感检测需要具备语言学信息的模型,以解决隐性情感、语境和跨文化变异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。