Skip to main content
QUICK REVIEW

[论文解读] Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews

Grégoire Mesnil, Tomáš Mikolov|arXiv (Cornell University)|Dec 17, 2014
Sentiment Analysis and Opinion Mining参考文献 7被引用 95
一句话总结

该论文提出了一种集成模型,结合生成式语言模型、句子嵌入和重加权词袋特征,用于电影评论的情感分析。通过将独立的正样本和负样本n-gram语言模型的似然比与NB-SVM等判别模型及句子向量相结合,该方法在IMDB数据集上实现了92.57%的新SOTA准确率,完整代码已公开,可供复现与进一步扩展。

ABSTRACT

Sentiment analysis is a common task in natural language processing that aims to detect polarity of a text document (typically a consumer review). In the simplest settings, we discriminate only between positive and negative sentiment, turning the task into a standard binary classification problem. We compare several ma- chine learning approaches to this problem, and combine them to achieve the best possible results. We show how to use for this task the standard generative lan- guage models, which are slightly complementary to the state of the art techniques. We achieve strong results on a well-known dataset of IMDB movie reviews. Our results are easily reproducible, as we publish also the code needed to repeat the experiments. This should simplify further advance of the state of the art, as other researchers can combine their techniques with ours with little effort.

研究动机与目标

  • 通过使用多样化的机器学习技术集成,提升IMDB电影评论数据集上的情感分类性能。
  • 探究生成式语言模型(常被判别式模型所忽视)是否能对情感分析做出有意义的贡献。
  • 证明结合互补模型(尤其是包含生成式方法)可超越单一模型,实现更优性能。
  • 通过公开代码,提供一个完全可复现的框架,使未来研究者能够轻松将新模型集成到该集成系统中。

提出的方法

  • 使用SRILM工具包中的Kneser-Ney平滑方法,分别在正面评论和负面评论上训练两个n-gram语言模型。
  • 计算测试评论在正样本语言模型和负样本语言模型下的似然比,作为判别性特征,并通过贝叶斯规则引入先验类别概率。
  • 利用带有负采样的跳字模型(skip-gram)训练句子嵌入(句子向量),将整个评论表示为固定大小的稠密向量。
  • 应用重加权词袋方法(NB-SVM结合tf-idf重加权),以增强传统词袋表示。
  • 通过学习到的权重,使用线性集成方法结合三个模型的预测结果(生成式似然比、句子向量和NB-SVM)。
  • 通过网格搜索或其它方法优化集成权重,以最大化测试准确率,所有模型均在相同协议下进行训练与评估。

实验结果

研究问题

  • RQ1在正面和负面评论上分别训练的生成式语言模型,能否为情感分类提供有用的判别信号?
  • RQ2生成式模型在IMDB情感数据集上的性能与最先进的判别式模型(如NB-SVM和句子嵌入)相比如何?
  • RQ3在集成设置中,不同归纳偏置的多样化模型在多大程度上能够互补?
  • RQ4将多个模型(包括一个生成式模型)组合起来,是否能带来相对于最佳单一模型的可测量性能提升?

主要发现

  • RNN语言模型、句子向量与三元语法特征的NB-SVM集成模型在IMDB数据集上实现了92.57%的新SOTA准确率。
  • 单独的生成式模型(n-gram语言模型)表现最弱,准确率为86.5%,但其在集成中仍具有显著贡献。
  • NB-SVM三元语法模型单独达到91.87%的准确率,是所有单一模型中的最高值,但仍低于集成模型。
  • 句子向量与NB-SVM三元语法模型的组合达到了92.39%的准确率,显示出两者之间强大的协同效应。
  • 消融分析表明,生成式模型在单独使用时贡献最小,但其加入显著提升了集成性能,表明其特征学习具有互补性。
  • 集成模型能够正确分类被单一模型误判的评论(如语气微妙或反讽类评论),表现出对复杂情感的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。