[论文解读] Crowdsourcing a Word-Emotion Association Lexicon
本文通过亚马逊机械 Turk 的众包方式,创建了一个大规模、高质量的词语-情绪和词语-极性关联词典。通过引入词语选择验证问题并优化情绪标注的表述方式,作者实现了较高的标注者间一致性,生成了一个包含 10,170 个词条的词典,支持词素级情绪关联和语义倾向标签,从而提升了自然语言处理应用中的情感与情绪分析效果。
Even though considerable attention has been given to the polarity of words (positive and negative) and the creation of large polarity lexicons, research in emotion analysis has had to rely on limited and small emotion lexicons. In this paper we show how the combined strength and wisdom of the crowds can be used to generate a large, high-quality, word-emotion and word-polarity association lexicon quickly and inexpensively. We enumerate the challenges in emotion annotation in a crowdsourcing scenario and propose solutions to address them. Most notably, in addition to questions about emotions associated with terms, we show how the inclusion of a word choice question can discourage malicious data entry, help identify instances where the annotator may not be familiar with the target term (allowing us to reject such annotations), and help obtain annotations at sense level (rather than at word level). We conducted experiments on how to formulate the emotion-annotation questions, and show that asking if a term is associated with an emotion leads to markedly higher inter-annotator agreement than that obtained by asking if a term evokes an emotion.
研究动机与目标
- 解决自然语言处理中缺乏大规模、高覆盖度、高质量情绪词典的问题。
- 开发一种可扩展且成本低廉的众包方法,用于创建情绪与极性词典。
- 通过引入词语选择验证问题,提升众包情绪标注的质量。
- 研究情绪标注问题的表述方式如何影响标注者间的一致性。
- 创建一个支持词语级与词素级情绪关联分析的词典。
提出的方法
- 使用亚马逊机械 Turk 进行众包情绪与极性标注,采用自定义调查界面。
- 引入词语选择问题,以检测不熟悉词汇并防止恶意数据输入。
- 通过对比“该词语是否引发 X 情绪?”与“该词语是否与 X 情绪相关?”两种表述方式,优化问题措辞以提高一致性。
- 使用层次贝叶斯估计方法,将 MaxDiff 判断转化为归一化的强度分数,以衡量情绪强度。
- 在词素层面收集标注,以捕捉上下文相关的感情关联。
- 通过与黄金标准数据对比,对词典进行验证,以确认标注质量。
实验结果
研究问题
- RQ1询问‘该词语是否与某种情绪相关’是否比询问‘该词语是否引发某种情绪’能获得更高的标注者间一致性?
- RQ2词语选择验证问题是否能提升众包情绪标注的可靠性和质量?
- RQ3情绪关联在不同词素之间如何变化?高频词在多大程度上会引发特定情绪?
- RQ4情绪关联词在词典中的分布情况如何?有多少词语直接指代情绪?
- RQ5该词典在多大程度上能够支持高级情绪检测与情感分析任务?
主要发现
- 询问‘该词语是否与某种情绪相关’比询问‘该词语是否引发某种情绪’能显著提高标注者间的一致性。
- 引入词语选择验证问题有效减少了不熟悉或恶意标注者带来的噪声,提升了数据质量。
- 最终词典包含 10,170 个词条,均标注了情绪关联与语义倾向(正面、负面、中性)。
- 研究者识别出 826 个直接指代情绪的词语,凸显了一类专门表示情绪的词汇。
- 通过与黄金标准数据对比验证,词典展现出高质量,证实其在情绪与情感分析中的实用性。
- 研究表明,若设计得当,众包可低成本生成可靠的大规模情绪词典。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。