QUICK REVIEW

[论文解读] Controversy and Sentiment in Online News

Yelena Mejova, Amy X. Zhang|arXiv (Cornell University)|Sep 29, 2014

Social Media and Politics参考文献 11被引用 60

一句话总结

本文提出一种数据驱动方法，利用情感和偏见词典量化美国新闻中争议性话题的框架方式。通过对15家新闻机构的数百万篇文章进行分析，发现争议性话题表现出更多负面情感和偏见语言，但情绪强度较低——表明可能存在自我审查现象；同时，偏见词汇是争议性的强有力预测因子。

ABSTRACT

How do news sources tackle controversial issues? In this work, we take a data-driven approach to understand how controversy interplays with emotional expression and biased language in the news. We begin by introducing a new dataset of controversial and non-controversial terms collected using crowdsourcing. Then, focusing on 15 major U.S. news outlets, we compare millions of articles discussing controversial and non-controversial issues over a span of 7 months. We find that in general, when it comes to controversial issues, the use of negative affect and biased language is prevalent, while the use of strong emotion is tempered. We also observe many differences across news sources. Using these findings, we show that we can indicate to what extent an issue is controversial, by comparing it with other issues in terms of how they are portrayed across different media.

研究动机与目标

理解在线新闻媒体中争议性议题在语言上的框架方式。
调查情感与偏见语言在争议性与非争议性话题之间是否存在系统性差异。
开发一种计算方法，利用词汇资源估算新闻报道中争议性的程度。
比较不同新闻机构在语言框架上的差异，揭示其语言使用中潜在的组织性偏见。
为未来研究提供一个公开可用的数据集，包含争议性、部分争议性和非争议性词汇。

提出的方法

通过每项词汇由10名标注者参与的众包方式，构建了一个新的争议性与非争议性词汇数据集。
收集并分析了2013年3月至9月间来自15家主要美国新闻机构（如CNN、NYT、Reuters）的700万篇新闻文章。
应用四种情感词典（如NRC、SentiStrength）来测量文章文本中的积极与消极情感。
使用源自维基百科讨论的偏见词典，检测具有意识形态色彩或判断性倾向的语言。
基于标注词汇训练分类器，利用情感与偏见词汇频率预测争议性水平。
通过分析特定话题（如“democrats”、“murder”）下各新闻机构的高频偏见与情感词汇，比较不同新闻机构的语言使用差异。

实验结果

研究问题

RQ1在报道争议性与非争议性话题的文章中，情感使用（尤其是负面情感与强烈情绪语言）有何不同？
RQ2偏见性词汇（如“terrorist”、“criminal”）与争议性话题共现的程度如何？它们能否有效预测争议性水平？
RQ3不同新闻机构在对同一争议性话题的语言框架上存在哪些差异？
RQ4是否存在新闻写作中自我调节的证据，例如在争议性语境下减少强烈情绪语言的使用？
RQ5能否利用情感与偏见词典中的词汇特征，自动估算新闻话题的争议性程度？

主要发现

在所有四种情感词典中，争议性话题均与负面情感词汇频率更高、正面情感词汇使用更少显著相关。
与非争议性话题相比，争议性话题中高度情绪化（强烈）词汇的使用显著减少，表明新闻机构可能存在自我审查。
偏见词汇（如“terrorist”、“criminal”、“justice”、“rights”）在争议性话题的文章中出现频率更高，且是争议性的强有力预测因子。
不同新闻机构在语言框架上存在显著差异：例如，Huffington Post在讨论“democrats”时使用更多主观性词汇如“very”和“good”，而CNN和Reuters则更倾向于使用机构化或正式语言。
较小的区域性媒体（如Philadelphia Inquirer、Honolulu Star-Advertiser）在报道暴力事件时，更关注特定个人或地点（如“victim”、“university”），而全国性媒体则更强调广泛机构。
一些模糊词汇如“oil”或“drug”尽管在语境中可能具有争议性，但仍被误分类为非争议性，凸显未来研究中需引入上下文感知分析的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。