[论文解读] Measuring Praise and Criticism: Inference of Semantic Orientation from Association
本文提出一种方法,通过词语与预定义的正面和负面范式词之间的统计关联,自动测量词语的语义倾向(正面或负面情感)。利用点互信息(PMI)和潜在语义分析(LSA),该方法在3,596个词的语料库上实现了82.8%的准确率,当排除语气较弱的情感词后准确率超过95%,证明了可有效从词语关联中推断出赞扬与批评。
The evaluative character of a word is called its semantic orientation. Positive semantic orientation indicates praise (e.g., "honest", "intrepid") and negative semantic orientation indicates criticism (e.g., "disturbing", "superfluous"). Semantic orientation varies in both direction (positive or negative) and degree (mild to strong). An automated system for measuring semantic orientation would have application in text classification, text filtering, tracking opinions in online discussions, analysis of survey responses, and automated chat systems (chatbots). This paper introduces a method for inferring the semantic orientation of a word from its statistical association with a set of positive and negative paradigm words. Two instances of this approach are evaluated, based on two different statistical measures of word association: pointwise mutual information (PMI) and latent semantic analysis (LSA). The method is experimentally tested with 3,596 words (including adjectives, adverbs, nouns, and verbs) that have been manually labeled positive (1,614 words) and negative (1,982 words). The method attains an accuracy of 82.8% on the full test set, but the accuracy rises above 95% when the algorithm is allowed to abstain from classifying mild words.
研究动机与目标
- 开发一种自动测量词语语义倾向的方法,区分赞扬(正面)与批评(负面)。
- 基于一组预定义的正面和负面词语的统计关联,推断语义倾向。
- 在包含3,596个词、涵盖词性分类的大型人工标注语料库上评估该方法的性能。
- 评估排除语气较弱情感词对分类准确率的影响。
提出的方法
- 该方法通过测量目标词与一组正面和负面范式词之间关联强度来计算语义倾向。
- 使用两种统计度量:点互信息(PMI)和潜在语义分析(LSA),以量化词语关联。
- 正面和负面语义倾向得分分别来自与正面和负面范式词的平均关联强度。
- 最终语义倾向由正面关联得分与负面关联得分的差值决定。
- 若正面得分高于负面得分,则系统将该词分类为正面;反之则为负面。
- 该方法允许对被认为语气较弱的词语选择不分类,从而提高整体准确率。
实验结果
研究问题
- RQ1能否从少量正面和负面范式词的词语关联中可靠地推断语义倾向?
- RQ2PMI和LSA在捕捉不同词性中的语义倾向方面有多有效?
- RQ3排除语气较弱的情感词是否能提高分类准确率?
- RQ4该方法在包含3,596个词的大型人工标注语料库上的表现如何?
- RQ5与其它方法相比,该方法在测量文本中赞扬与批评方面的表现如何?
主要发现
- 该方法在包含形容词、副词、名词和动词的3,596个词的完整测试集上达到了82.8%的准确率。
- 当算法被允许跳过分类语气较弱的情感词时,准确率提升至95%以上。
- 同时使用点互信息(PMI)和潜在语义分析(LSA)取得了优异性能,验证了两种统计方法的有效性。
- 结果表明,无需大量人工标注,即可有效从词语关联中推断语义倾向。
- 该方法在文本分类、意见追踪和聊天机器人系统等应用中展现出巨大潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。