[论文解读] Sentiment Analysis of Citations Using Word2vec
本文研究了基于 word2vec 的句子嵌入(sent2vec)在引用情感分析中的有效性,采用 ACL-Embeddings 和情感特定嵌入的词向量平均值。结果表明,word2vec 在二元正面/负面引用分类任务中表现优异(宏 F 值 0.85),但手工特征整体仍优于其表现,尤其在隐含引用分类和平衡数据集上。
Citation sentiment analysis is an important task in scientific paper analysis. Existing machine learning techniques for citation sentiment analysis are focusing on labor-intensive feature engineering, which requires large annotated corpus. As an automatic feature extraction tool, word2vec has been successfully applied to sentiment analysis of short texts. In this work, I conducted empirical research with the question: how well does word2vec work on the sentiment analysis of citations? The proposed method constructed sentence vectors (sent2vec) by averaging the word embeddings, which were learned from Anthology Collections (ACL-Embeddings). I also investigated polarity-specific word embeddings (PS-Embeddings) for classifying positive and negative citations. The sentence vectors formed a feature space, to which the examined citation sentence was mapped to. Those features were input into classifiers (support vector machines) for supervised classification. Using 10-cross-validation scheme, evaluation was conducted on a set of annotated citations. The results showed that word embeddings are effective on classifying positive and negative citations. However, hand-crafted features performed better for the overall classification.
研究动机与目标
- 评估基于 word2vec 的句子嵌入是否能在无需人工特征工程的情况下有效分类引用情感。
- 探究情感特定词嵌入是否能提升引用情感分类任务的性能。
- 评估 word2vec 在隐含引用分类中的表现,此类引用因缺乏明确的情感线索而更具挑战性。
- 比较在不同语料库(ACL-Embeddings 与 Brown 语料库)上训练的 word2vec 嵌入以及不同维度下的有效性。
- 确定神经网络生成的嵌入是否能在引用情感分类中达到或超越传统手工特征。
提出的方法
- 通过在 ACL-Embeddings 语料库上预训练的 word2vec 模型,对词向量取平均,构建句子嵌入(sent2vec)。
- 通过在正面和负面引用子集上微调,训练情感特定词嵌入(PS-Embeddings),以捕捉情感特异性表示。
- 采用 10 折交叉验证方案,在人工标注的引用数据集上评估分类性能。
- 使用 sent2vec 将每个引用句子映射为固定长度向量,作为支持向量机(SVM)监督分类的输入。
- 对比多种嵌入类型的表现:ACL-Embeddings(100D, 300D)、Brown 语料库(100D)和 PS-Embeddings(300D)。
- 使用微 F 值、宏 F 值和加权 F 值进行评估,以兼顾类别不平衡和整体性能。
实验结果
研究问题
- RQ1word2vec 在分类正面和负面引用方面表现如何?
- RQ2与通用嵌入相比,情感特定词嵌入是否能提升分类结果?
- RQ3word2vec 在分类隐含引用(客观、负面、正面、排除)方面表现如何?
- RQ4总体而言,word2vec 与手工特征在分类正面、负面和客观引用方面相比如何?
主要发现
- 基于 word2vec 的 sent2vec 在二元正面/负面引用分类中取得了 0.85 的宏 F 值和 0.86 的加权 F 值,表现出较强的分类有效性。
- ACL-Embeddings(300D)在宏 F 值(0.33 vs. 0.31)和加权 F 值(0.82 vs. 0.81)上均优于 Brown 语料库(100D),表明语料选择具有重要影响。
- 100D 和 300D 的 ACL-Embeddings 在性能上无显著差异,表明更高维度并不总能提升结果。
- 情感特定嵌入(PS-ACL300)在性能上未优于通用 ACL-Embeddings(宏 F 值 0.84 vs. 0.85),与先前研究的预期相悖。
- 在隐含引用分类中,sent2vec 取得了 0.44 的宏 F 值,与基线(0.47)相当,且在检测客观引用方面表现最佳(F 值 0.84)。
- 尽管在基础数据集上微 F 值达到 0.88,word2vec 在性能上仍逊于手工特征(如 n-gram + 依存关系,宏 F 值 0.90),尤其在数据不平衡时表现更差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。