[论文解读] Sentiment Analysis in the News
本文提出了一种针对新闻文章的定向情感分析方法,通过区分针对实体的情感与底层新闻内容(好/坏新闻)来实现,采用命名实体周围的窗口化分析,并从情感词典中过滤特定领域的预警词汇。主要贡献在于:排除主题领域词汇——尤其是新闻分类列表中的词汇——能显著提升性能,最佳准确率达到82%,使用6词窗口和结合JRC Tonality与MicroWN词典。
Recent years have brought a significant growth in the volume of research in sentiment analysis, mostly on highly subjective text types (movie or product reviews). The main difference these texts have with news articles is that their target is clearly defined and unique across the text. Following different annotation efforts and the analysis of the issues encountered, we realised that news opinion mining is different from that of other text types. We identified three subtasks that need to be addressed: definition of the target; separation of the good and bad news content from the good and bad sentiment expressed on the target; and analysis of clearly marked opinion that is expressed explicitly, not needing interpretation or the use of world knowledge. Furthermore, we distinguish three different possible views on newspaper articles - author, reader and text, which have to be addressed differently at the time of analysing sentiment. Given these definitions, we present work on mining opinions about entities in English language news, in which (a) we test the relative suitability of various sentiment dictionaries and (b) we attempt to separate positive or negative opinion from good or bad news. In the experiments described here, we tested whether or not subject domain-defining vocabulary should be ignored. Results showed that this idea is more appropriate in the context of news opinion mining and that the approaches taking this into consideration produce a better performance.
研究动机与目标
- 为解决新闻情感分析的挑战,其与产品或电影评论存在根本差异,因情感表达间接且目标多重。
- 通过区分针对实体的情感与事实性新闻内容(好/坏新闻),明确任务定义。
- 评估从新闻语境的情感词典中排除主题领域特定词汇(如“危机”、“灾难”)的影响。
- 通过聚焦命名实体周围的小文本窗口而非整篇文章,提升性能。
- 探索不同情感词典及其组合在新闻情感分类中的作用。
提出的方法
- 该方法在新闻引述中命名实体为中心的固定大小词窗口(3、6、10)内应用情感分析。
- 评估多种情感词典:JRC Tonality、MicroWordNet、WordNet-Affect 和 SentiWordNet,分别在是否过滤新闻类别中的领域特定预警词汇的情况下进行评估。
- 系统使用 EMM News 系统的类别定义来识别并排除属于主题领域标签的词汇(如“危机”、“海啸”)的情感分析。
- 性能通过引述中情感的人工标注进行评估,准确率以正确分类的情感短语比例衡量。
- 该方法通过将“好”或“坏”新闻视为事实内容,而将情感视为对实体的评价性表达,实现情感与新闻内容的分离。
- 进行错误分析以识别失败模式,包括无情感词汇的中性引述、反语、习语以及因共指或多个意见目标导致的误分类。
实验结果
研究问题
- RQ1从情感词典中过滤主题领域特定词汇是否能提升新闻文章中情感分类的准确率?
- RQ2当情感分析应用于实体周围的小文本窗口与整篇文章时,性能如何变化?
- RQ3哪种情感词典组合在新闻情感分类中能获得最高准确率?
- RQ4习语表达、反语以及缺乏显式情感词汇在多大程度上导致新闻情感分析中的误分类?
- RQ5作者、读者和文本的不同视角在新闻情感的解释与标注中产生何种影响?
主要发现
- 从情感词典中排除领域特定预警词汇能显著提升性能,尤其对 JRC Tonality 和 MicroWN 等词典效果更明显。
- 最佳准确率 82% 是在使用 6 词窗口和结合 JRC Tonality 与 MicroWN 词典时实现的。
- 使用全文情感分析时性能下降,表明围绕实体的局部上下文比全局文章级情感分析更有效。
- 部分词典(如 WordNet-Affect 和 SentiWordNet)表现出系统性过分类偏差(例如,过度分类为负面或正面)。
- 主要错误来源是引述中虽无情感词汇但仍隐含表达观点的情况,如“我们已经给X足够的时间”或“惹起了骚动”。
- 初步测试中,回指消解工具降低了系统性能,表明新闻情感任务中核心指代消解存在挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。