Skip to main content
QUICK REVIEW

[论文解读] People on Media: Jointly Identifying Credible News and Trustworthy Citizen Journalists in Online Communities

Subhabrata Mukherjee, Gerhard Weikum|MPG.PuRe (Max Planck Society)|May 7, 2017
Misinformation and Its Impacts参考文献 29被引用 29
一句话总结

本文提出了一种连续条件随机场(CCRF)模型,通过建模细粒度的、实值的用户评分以及语言质量、来源可信度、用户专业度和话题视角之间的相互依赖关系,联合识别在线新闻社区中可信的新闻文章、可信赖的新闻来源以及具备专家水平的‘公民记者’用户。该方法通过捕捉多个可信度因素之间的复杂联合交互,优于传统协同过滤和回归模型。

ABSTRACT

Media seems to have become more partisan, often providing a biased coverage of news catering to the interest of specific groups. It is therefore essential to identify credible information content that provides an objective narrative of an event. News communities such as digg, reddit, or newstrust offer recommendations, reviews, quality ratings, and further insights on journalistic works. However, there is a complex interaction between different factors in such online communities: fairness and style of reporting, language clarity and objectivity, topical perspectives (like political viewpoint), expertise and bias of community members, and more. This paper presents a model to systematically analyze the different interactions in a news community between users, news, and sources. We develop a probabilistic graphical model that leverages this joint interaction to identify 1) highly credible news articles, 2) trustworthy news sources, and 3) expert users who perform the role of "citizen journalists" in the community. Our method extends CRF models to incorporate real-valued ratings, as some communities have very fine-grained scales that cannot be easily discretized without losing information. To the best of our knowledge, this paper is the first full-fledged analysis of credibility, trust, and expertise in news communities.

研究动机与目标

  • 为应对媒体偏见和虚假信息日益增长的挑战,通过系统分析在线新闻社区中的可信度。
  • 建模新闻文章语言质量、来源可信度、用户专业度与用户生成评分之间的复杂相互作用。
  • 基于其可信度、可信度和专业度,联合排序新闻文章、来源和用户。
  • 在不因离散化而损失信息的前提下,处理像Newstrust.net等平台常见的细粒度实值用户评分。
  • 通过提供客观、高质量的新闻内容评估,可靠识别出充当‘公民记者’的专家用户。

提出的方法

  • 本文开发了一种连续条件随机场(CCRF)模型,利用用户提供的实值评分,联合建模可信度、可信度和专业度。
  • CCRF模型扩展了传统CRF模型,以处理连续评分变量,从而保留多维度评估中的细粒度信息。
  • 该模型捕捉了以下三类交互关系:(1) 语言客观性与文章可信度之间的关系,(2) 来源观点与可信度之间的关系,以及(3) 用户专业度与评分一致性之间的关系。
  • 通过基于专业度和社区反馈的用户特定权重,对可信度信号进行优化。
  • 该框架建模了相互依赖关系——例如,可信来源产生可信文章,这些文章被专家用户给予高分——从而形成自洽的可信度信号。
  • 该模型基于真实世界新闻社区的数据进行训练,包括每篇新闻文章15个方面的评分(如公平性、事实准确性),并汇总为实值总体评分。

实验结果

研究问题

  • RQ1在在线社区中,语言客观性、来源观点和用户专业度如何共同影响新闻文章的可信度?
  • RQ2与离散评分相比,使用多方面(如公平性、风格)的实值用户评分在可信度预测方面有多大提升?
  • RQ3能否基于用户在多篇文章和来源间的一致、客观的评估,可靠地识别出专家用户作为‘公民记者’?
  • RQ4来源、文章和用户之间的相互依赖关系如何在孤立特征之外增强整体可信度信号?
  • RQ5通过CCRF建模联合交互关系,是否在可信度排序任务中优于标准的协同过滤或基于回归的方法?

主要发现

  • CCRF模型显著优于未建模用户、文章和来源之间联合交互的复杂协同过滤和回归方法。
  • 该模型能有效识别出可信新闻来源,因其持续产出由专家用户给予高分的可信、客观文章。
  • 专家用户被可靠地识别为那些提供一致、客观评分且与其他专家用户评分一致的用户,支持其作为‘公民记者’的角色。
  • 可信来源与可信文章之间存在中等但有意义的相关性,且随着用户专业度的提高,分歧(MSE)逐渐降低。
  • 使用实值评分(无需离散化)可保留关键信息,相比将评分分箱的方法,能实现更准确的可信度估计。
  • 该框架可推广至其他领域,如健康论坛,其中需联合评估帖子可信度、副作用报告和用户专业度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。