[论文解读] A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
本文提出了一种专为微博情感分析设计的新情感词典 AFINN-2477,采用 -5 至 +5 的效价量表进行人工打分,涵盖网络俚语和冒犯性词汇。在通过 Amazon Mechanical Turk 手动标注的 1,000 条 Twitter 帖子上进行评估,其与人工判断的相关性(皮尔逊相关系数 r = 0.564)优于 ANEW(r = 0.525),尽管 SentiStrength 仍表现更优(r = 0.610),凸显了领域特定词典与先进自然语言处理技术的优势。
Sentiment analysis of microblogs such as Twitter has recently gained a fair amount of attention. One of the simplest sentiment analysis approaches compares the words of a posting against a labeled word list, where each word has been scored for valence, -- a 'sentiment lexicon' or 'affective word lists'. There exist several affective word lists, e.g., ANEW (Affective Norms for English Words) developed before the advent of microblogging and sentiment analysis. I wanted to examine how well ANEW and other word lists performs for the detection of sentiment strength in microblog posts in comparison with a new word list specifically constructed for microblogs. I used manually labeled postings from Twitter scored for sentiment. Using a simple word matching I show that the new word list may perform better than ANEW, though not as good as the more elaborate approach found in SentiStrength.
研究动机与目标
- 开发一种专为微博等非正式语言、俚语和冒犯性词汇泛滥的平台设计的情感词典。
- 评估该新词典在情感强度检测方面相对于 ANEW、General Inquirer 和 OpinionFinder 等成熟词表的性能。
- 评估在短篇非正式文本中纳入网络俚语和强烈负面词汇是否能提升情感分析的准确性。
- 探究新词典与 ANEW 之间性能差异的原因是否源于评分质量或词汇覆盖范围。
提出的方法
- 构建了一个包含 2,477 个唯一词汇和 15 个短语的新情感词典(AFINN-2477),在 -5(非常负面)至 +5(非常正面)的效价量表上进行人工打分。
- 通过 COP15 Twitter 帖子数据、公开词表(如 DeRose、Siegle)、Urban Dictionary、Wiktionary 以及 Microsoft Web n-gram 相似度服务,迭代式扩展词典。
- 排除模糊词汇(如 'patient'、'mean')和高唤醒度中性词(如 'surprise'),以减少噪声。
- 使用 1,000 条通过 Amazon Mechanical Turk 手动标注的 Twitter 帖子评估性能,计算自动化得分与人工标签之间的皮尔逊相关系数和斯皮尔曼等级相关系数。
- 采用相同的评分方法和重采样技术,将新词典与 ANEW、General Inquirer、OpinionFinder 和 SentiStrength 进行对比。
- 分析 ANEW 与新词典的交集(299 个词),通过使用 ANEW 的评分重新打分,以分离评分质量与词汇覆盖范围的影响。
实验结果
研究问题
- RQ1是否专门针对微博设计的情感词典在 Twitter 情感强度检测中优于 ANEW?
- RQ2在非正式文本中纳入网络俚语和冒犯性词汇在多大程度上能提升情感分析性能?
- RQ3新词典的性能提升是源于评分质量更好,还是相比 ANEW 具有更广的词汇覆盖范围?
- RQ4随着词典逐步扩大规模,其性能如何演变?
- RQ5新词典与 SentiStrength 相比如何?SentiStrength 采用如否定处理和表情符号识别等先进自然语言处理技术。
主要发现
- 新词典 AFINN-2477 在 1,000 条 Twitter 帖子上与人工判断的皮尔逊相关系数达到 0.564,优于 ANEW 的 0.525。
- SentiStrength 达到最高相关系数(0.610),表明即使使用更优的词典,先进自然语言处理技术仍优于简单的词汇匹配。
- General Inquirer 词表表现欠佳(皮尔逊相关系数 r = 0.374),可能因其仅提供极性评分,缺乏情感强度信息。
- OpinionFinder 词表表现优于 General Inquirer(r = 0.458),但劣于 ANEW 和新词典,尽管其规模更大。
- 新词典的性能随扩展稳步提升,如图 4 所示,表明持续扩展仍可能带来进一步增益。
- 对 ANEW 与新词典交集的 299 个词的分析显示,ANEW 的评分质量更优,表明新词典的性能提升主要源于词汇覆盖范围,而非评分质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。