Skip to main content
QUICK REVIEW

[论文解读] Estimating the Prevalence of Deception in Online Review Communities

Myle Ott, Claire Cardie|arXiv (Cornell University)|Apr 12, 2012
Spam and Phishing Detection参考文献 11被引用 29
一句话总结

本文提出一种结合生成模型与欺骗分类器的方法,用于估算六个在线评论社区(Expedia、Hotels.com、Orbitz、Priceline、TripAdvisor、Yelp)中的欺骗行为普遍程度。基于经济信号理论,研究发现欺骗率在不同平台间存在显著差异,且受发布成本影响——更高的信号成本(例如,排除首次评论者)可降低欺骗的普遍程度与增长速度,提供一种切实可行的缓解策略。

ABSTRACT

Consumers' purchase decisions are increasingly influenced by user-generated online reviews. Accordingly, there has been growing concern about the potential for posting "deceptive opinion spam" -- fictitious reviews that have been deliberately written to sound authentic, to deceive the reader. But while this practice has received considerable public attention and concern, relatively little is known about the actual prevalence, or rate, of deception in online review communities, and less still about the factors that influence it. We propose a generative model of deception which, in conjunction with a deception classifier, we use to explore the prevalence of deception in six popular online review communities: Expedia, Hotels.com, Orbitz, Priceline, TripAdvisor, and Yelp. We additionally propose a theoretical model of online reviews based on economic signaling theory, in which consumer reviews diminish the inherent information asymmetry between consumers and producers, by acting as a signal to a product's true, unknown quality. We find that deceptive opinion spam is a growing problem overall, but with different growth rates across communities. These rates, we argue, are driven by the different signaling costs associated with deception for each review community, e.g., posting requirements. When measures are taken to increase signaling cost, e.g., filtering reviews written by first-time reviewers, deception prevalence is effectively reduced.

研究动机与目标

  • 估算主要在线评论社区中欺骗性意见垃圾信息的实际普遍程度。
  • 探究结构因素(尤其是信号成本)如何影响不同平台上的欺骗率。
  • 开发一种无需依赖自我报告或黄金标准标注的欺骗普遍程度估算方法。
  • 评估提高发布评论成本是否能有效减少欺骗行为。
  • 探讨这些发现对人类沟通中欺骗行为心理研究的启示。

提出的方法

  • 构建欺骗的生成模型,利用噪声分类器输出作为输入,估算语料库中虚假评论的潜在比例。
  • 欺骗分类器基于亚马逊Mechanical Turk生成的虚假评论进行训练,将评论标记为可能具有欺骗性或真实。
  • 使用Gibbs采样推断欺骗普遍程度的后验分布,以考虑分类器的不确定性。
  • 理论建模基于经济信号理论,将“信号成本”定义为发布要求与曝光收益的函数。
  • 该模型将在线评论视为产品质量的信号,高信号成本可抑制欺骗行为。
  • 该框架评估提高信号成本(例如,通过过滤首次或第二次评论者)对欺骗率的影响。

实验结果

研究问题

  • RQ1在主要在线评论社区中,欺骗性意见垃圾信息的实际普遍程度是多少?
  • RQ2发布要求与曝光收益的差异(即信号成本)如何影响不同平台上的欺骗率?
  • RQ3提高发布评论的成本是否能有效降低欺骗的普遍程度与增长速度?
  • RQ4分类器的噪声在多大程度上影响欺骗普遍程度估算的可靠性?
  • RQ5这些发现如何与人类沟通中欺骗频率的心理学辩论相关联?

主要发现

  • 总体而言,欺骗性意见垃圾信息是一个日益严重的问题,但在六个研究的评论社区中,其增长速度存在显著差异。
  • 信号成本较低的社区——如发布要求较少且曝光度较高——表现出更高的欺骗率。
  • 过滤首次或第二次评论者的评论可有效降低欺骗的当前普遍程度与增长速度。
  • 研究证实,提高信号成本是一种可行的策略,可抑制欺骗行为,尽管可能无法完全阻止新欺骗者适应。
  • 结果支持了欺骗普遍程度由与发布成本和曝光收益相关的经济激励驱动的假设。
  • 该框架提供了一种新颖的非自我报告方法来估算欺骗普遍程度,对在线商业与心理学研究均具有重要意义。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。