QUICK REVIEW

[论文解读] NRC-Canada: Building the State-of-the-Art in Sentiment Analysis of Tweets

Saif M. Mohammad, Svetlana Kiritchenko|arXiv (Cornell University)|Aug 28, 2013

Sentiment Analysis and Opinion Mining参考文献 15被引用 460

一句话总结

本文提出了两种基于SVM的最新情感分类器，用于推文和短信：一种用于消息级情感分类（F值69.02），另一种用于词级情感分类（F值88.93），两者在SemEval-2013竞赛中均排名第一。该系统利用从话题标签和表情符号自动生成的情感词典，结合表面形式、语义和n-gram特征，其中词典特征在消息级任务中贡献了超过5个F值点。

ABSTRACT

In this paper, we describe how we created two state-of-the-art SVM classifiers, one to detect the sentiment of messages such as tweets and SMS (message-level task) and one to detect the sentiment of a term within a submissions stood first in both tasks on tweets, obtaining an F-score of 69.02 in the message-level task and 88.93 in the term-level task. We implemented a variety of surface-form, semantic, and sentiment features. with sentiment-word hashtags, and one from tweets with emoticons. In the message-level task, the lexicon-based features provided a gain of 5 F-score points over all others. Both of our systems can be replicated us available resources.

研究动机与目标

开发针对推文和短信等短文本的高精度情感分类器。
通过利用用户生成内容中自动生成的情感词典，提升社交媒体数据的情感分析性能。
评估各种特征类型（表面形式、语义、n-gram和情感词典）在消息级和词级情感分类中的有效性。
通过公开所有模型和词典作为免费资源，确保结果可复现。
在SemEval-2013任务2：推文情感分析竞赛中，于消息级和词级子任务中均取得最高性能。

提出的方法

利用带有情感词话题标签的推文构建大规模情感词典（NRC话题标签情感词典），其中情感通过话题标签中的情绪词推断得出。
利用包含表情符号的推文构建第二个词典，将表情符号视为其周围文本的情感指示器。
采用支持向量机（SVM）分类器，结合多样化特征：单字词、字符n-gram、词n-gram、情感词典得分、否定处理和文本规范化（例如处理拼写延长词和标点符号）。
使用点互信息（PMI）计算词语与从话题标签和表情符号推导出的情感标签之间的关联得分：$score(w) = PMI(w,positive) - PMI(w,negative)$。
在合并的训练和开发数据上训练模型，然后在未见的测试集上对推文和短信进行评估，短信任务未进行进一步调优。
进行消融研究，以分离各特征组的贡献，包括分别移除目标词或其上下文的特征。

实验结果

研究问题

RQ1从话题标签和表情符号自动生成的情感词典在提升推文情感分类性能方面有多有效？
RQ2表面形式、语义和n-gram特征的哪种组合在短文本的消息级和词级情感分类中表现最佳？
RQ3在消息级情感分类任务中，情感词典特征在多大程度上优于其他特征类型？
RQ4在未见数据（如短信消息）上，训练好的模型在不微调或重新训练的情况下具有多强的泛化能力？
RQ5在词级情感分类中，目标词特征与上下文特征的相对贡献如何？

主要发现

NRC-Canada系统在推文的消息级情感分析任务中取得最高F值69.02，34支参赛团队中排名第一。
在词级任务中，系统在推文上的F值达到88.93，23支参赛团队中排名第一，赛后修复一个错误后提升至89.10。
仅使用自动生成的话题标签情感词典，就在消息级任务中贡献了超过5个F值点，显著优于其他特征类型。
词级分类器在短信消息上的F值达到88.00（第二名），展示了无需在短信数据上微调的强零样本泛化能力。
n-gram特征（包括词n-gram和字符n-gram）影响最大，移除后在推文上的F值下降5.24点，在短信上下降7.85点。
情感词典特征为第二重要的特征，移除后在推文上的性能下降3.95点，在短信上下降4.64点，表明其在提升准确率方面具有关键作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。