[论文解读] Twitter Opinion Topic Model: Extracting Product Opinions from Tweets by Leveraging Hashtags and Sentiment Lexicon
本文提出 Twitter 情感主题模型(TOTM),一种基于 LDA 的主题模型,通过直接建模目标-情感交互并引入情感词典作为可学习先验,提升了在嘈杂、非正式推文上的基于方面的情感挖掘性能。TOTM 在 900 万条电子产品的推文上显著提升了情感预测与情感分类性能,优于 ILDA 和 LDA-DP 等基线模型。
Aspect-based opinion mining is widely applied to review data to aggregate or summarize opinions of a product, and the current state-of-the-art is achieved with Latent Dirichlet Allocation (LDA)-based model. Although social media data like tweets are laden with opinions, their "dirty" nature (as natural language) has discouraged researchers from applying LDA-based opinion model for product review mining. Tweets are often informal, unstructured and lacking labeled data such as categories and ratings, making it challenging for product opinion mining. In this paper, we propose an LDA-based opinion model named Twitter Opinion Topic Model (TOTM) for opinion mining and sentiment analysis. TOTM leverages hashtags, mentions, emoticons and strong sentiment words that are present in tweets in its discovery process. It improves opinion prediction by modeling the target-opinion interaction directly, thus discovering target specific opinion words, neglected in existing approaches. Moreover, we propose a new formulation of incorporating sentiment prior information into a topic model, by utilizing an existing public sentiment lexicon. This is novel in that it learns and updates with the data. We conduct experiments on 9 million tweets on electronic products, and demonstrate the improved performance of TOTM in both quantitative evaluations and qualitative analysis. We show that aspect-based opinion analysis on massive volume of tweets provides useful opinions on products.
研究动机与目标
- 解决从缺乏显式评分或标签的非结构化、嘈杂推文中挖掘产品情感的挑战。
- 通过直接建模目标(如 'camera'、'phone')与情感词(如 'love'、'hate')之间的交互,提升推文中的情感预测性能。
- 以数据驱动、可学习的方式将情感词典信息整合到主题模型中,而非使用临时或基于规则的方法。
- 通过基于推文情感和话题标签聚类提取并聚合实体层面的意见,实现产品与品牌层面的高层次比较。
- 证明在 Twitter 上对新产品感知进行实时、大规模基于方面的意见分析在可行性和实用性上的价值。
提出的方法
- TOTM 通过直接建模目标-情感交互扩展 LDA,使其能够学习到如 'grilled' 等情感词仅对特定目标(如 'sausage')为正向情感。
- 利用话题标签、提及、表情符号和强情感词作为信号,提升在短文本、非正式文本中的主题聚类与情感检测性能。
- 提出一种新公式,将公开情感词典整合到主题模型先验中,使模型能够从数据中动态学习并更新情感强度。
- 通过话题标签和提及对推文进行聚合,提升方面聚类效果,并支持跨产品比较。
- 引入一种专为推文短文本、噪声大的格式设计的新目标-情感抽取流程,提升检测准确率。
- 预处理包括拼写错误与缩写词的规范化,以及通过移除 URL 进行垃圾信息过滤,以提升数据质量。
实验结果
研究问题
- RQ1基于 LDA 的模型能否在无显式评分的情况下,有效从非结构化、非正式的推文中提取特定方面的意见?
- RQ2与标准 LDA 或 ILDA 相比,直接建模目标-情感交互在情感预测方面有何改进?
- RQ3情感词典能否被有效且可学习地整合到主题模型中,以提升推文上的情感分类性能?
- RQ4TOTM 在多大程度上可通过基于推文情感和话题标签聚类,实现对品牌(如 Canon、Sony、Samsung)的高层次意见比较?
- RQ5TOTM 在提取特定产品(如 iPhone)上正负情感对比意见方面表现如何?
主要发现
- TOTM 在情感预测方面显著优于 ILDA 和 LDA-DP,能正确识别出如 'grilled' 等情感词仅对特定目标(如 'sausage')为正向情感。
- 将情感词典作为可学习先验的提出公式,提升了情感分类性能,优于临时或基于规则的方法。
- 在包含 900 万条电子产品推文的数据集中,TOTM 的模型拟合效果更优,情感分析更准确,优于基线模型。
- TOTM 能够有效支持品牌比较,通过话题标签和情感聚类方法成功提取并总结了关于 Canon、Sony 和 Samsung 相机与手机的意见。
- 定性分析表明,TOTM 能够成功提取出如 iPhone 等产品上具有意义的、正负对比的情感意见,且以自然语言形式表达。
- 该模型展示了在 Twitter 上实现实时、大规模基于方面的意见挖掘的可行性,为新产品感知提供了及时洞察。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。