Skip to main content
QUICK REVIEW

[论文解读] Practical and Ethical Considerations in the Effective use of Emotion and Sentiment Lexicons

Saif M. Mohammad|arXiv (Cornell University)|Nov 6, 2020
Sentiment Analysis and Opinion Mining参考文献 30被引用 37
一句话总结

本文概述使用词-情感关联词典的实际和伦理考虑,借鉴 NRC Emotion Lexicon 及相关资源。它讨论覆盖范围、意义先验、偏见、聚合和使用指南。

ABSTRACT

Lexicons of word-emotion associations are widely used in research and real-world applications. As part of my research, I have created several such lexicons (e.g., the NRC Emotion Lexicon). This paper outlines some practical and ethical considerations involved in the effective use of these lexical resources.

研究动机与目标

  • 解释情感词典是什么,以及它们在不同学科和应用中的使用方式。
  • 识别在构建和应用情感词典过程中的实际局限性和伦理关切。
  • 提供在使用词典分析文本时缓解偏见和误解的指南。
  • 通过讨论来源、众包和标注的透明度来促进负责任的使用。

提出的方法

  • 审查现有情感词典及其创建方法,包括众包和自动生成的条目。
  • 列举覆盖范围、意义先验、内涵与指称之分,以及关联的时态稳定性。
  • 突出情境文化偏见以及聚合与翻译词典时的问题。
  • 提供将词典应用于文本分析与研究的实际建议和“专业提示”。

实验结果

研究问题

  • RQ1就覆盖范围和意义表示而言,当前情感与情绪词典的关键实际局限性有哪些?
  • RQ2来自众包标注、社会文化偏见以及词典翻译的哪些伦理考量?
  • RQ3研究人员应如何解读并应用词典分数,以避免将情感错误归因于说话者?
  • RQ4在研究和应用中使用这些词典时,哪些最佳做法可以减轻偏见、提高可靠性?

主要发现

  • 各词典的覆盖范围各不相同;存在高覆盖集合,但没有任何词典涵盖所有语言术语。
  • 词汇可能具有在不同领域中占主导地位的语义,这会影响关联性。
  • 关联反映的是内涵而非指称,且随时间并非不变。
  • 社会文化偏见源自标注者群体和文本来源,影响对词典的感知。
  • 多数投票聚合可能掩盖少数或情境特定的关联;可获取拆分的数据。
  • 翻译和自动生成会在情感映射中引入错误和文化差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。