QUICK REVIEW

[论文解读] Unmasking Bias in News

Javier Sánchez-Junquera, Paolo Rosso|arXiv (Cornell University)|Jun 11, 2019

Misinformation and Its Impacts被引用 2

一句话总结

本文通过掩码技术研究超极化新闻检测，以隔离内容与风格对分类性能的影响。通过掩码高频词以强调风格，或掩码特定主题词以强调内容，作者发现基于内容的特征——尤其是字符5-gram——表现更优，优于基于风格的模型及先前的最先进方法，表明意识形态一致媒体间的词汇重叠要求构建更精细的数据集以检测隐性偏见。

ABSTRACT

We present experiments on detecting hyperpartisanship in news using a 'masking' method that allows us to assess the role of style vs. content for the task at hand. Our results corroborate previous research on this task in that topic related features yield better results than stylistic ones. We additionally show that competitive results can be achieved by simply including higher-length n-grams, which suggests the need to develop more challenging datasets and tasks that address implicit and more subtle forms of bias.

研究动机与目标

探究内容或写作风格是否对超极化新闻检测更具预测力。
评估掩码技术在隔离风格与主题特征方面对超极化新闻检测的有效性。
确定更高长度的n-gram是否能优于传统特征集提升性能。
评估当前数据集是否足够具有挑战性，以检测新闻中细微的、隐性的偏见形式。

提出的方法

应用掩码技术通过将特定词语替换为星号或数字符号来转换文本，保留结构的同时隔离内容或风格。
对于基于风格的建模，将最频繁的k个词语进行掩码，保留稀有词语以反映风格模式。
对于基于主题的建模，保留最频繁的k个词语，其余全部掩码，以突出主题内容。
该方法使用字符级5-gram作为特征，其表现优于较小的n-gram和传统词汇特征。
使用SVM训练模型，并通过scikit-learn提取特征权重以识别判别性词语。
该方法在经过清理的BuzzFeed-Webis虚假新闻语料库2016版上进行评估，并通过随机过采样实现训练集平衡。

实验结果

研究问题

RQ1内容或写作风格对超极化新闻检测的影响哪个更强？
RQ2掩码技术能否有效隔离并评估风格与内容对分类性能的贡献？
RQ3与低阶n-gram或传统特征相比，更高长度的n-gram（如5-gram）是否能提升检测性能？
RQ4跨意识形态一致媒体的词汇重叠在多大程度上削弱了当前检测方法？

主要发现

当k < 500时，主题基模型（掩码高频词并保留稀有词）优于风格基模型，表明内容特征比风格特征更具判别力。
在不进行任何掩码的情况下，仅使用字符5-gram的基线模型达到最高的宏F1分数，优于所有掩码模型及先前最先进结果。
提取5-gram相比更小的n-gram显著提升性能，表明更长的词汇序列能捕捉超极化文本中更具判别性的模式。
在主题基模型中，'donal'、'onald'、'hill'和'llary'等特征高度相关，表明其与左翼和右翼媒体中唐纳德·特朗普和希拉里·克林顿的强烈关联。
在风格基模型中，功能词如'out'、'you'、'and'和'of'尤为突出，表明风格差异细微，依赖于高频词组合。
在训练CNN内容时，模型学习到'cnn'是主题基模型中的判别性特征，但该特征在测试集中极为稀少，凸显了数据分布偏移问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。