[论文解读] In a World That Counts: Clustering and Detecting Fake Social Engagement at Scale
本文提出 Leas,一种可扩展的半监督方法,用于检测 YouTube 上的虚假社交互动。该方法将用户互动行为建模为时间图,并使用局部谱聚类来扩展已知的垃圾用户种子。Leas 在人工审核中达到 98% 的准确率,且运行速度比当前最先进的方法 CopyCatch 快 10 倍,现已在 Google 内部实际用于大规模检测和移除虚假评论。
How can web services that depend on user generated content discern fake social engagement activities by spammers from legitimate ones? In this paper, we focus on the social site of YouTube and the problem of identifying bad actors posting inorganic contents and inflating the count of social engagement metrics. We propose an effective method, Leas (Local Expansion at Scale), and show how the fake engagement activities on YouTube can be tracked over time by analyzing the temporal graph based on the engagement behavior pattern between users and YouTube videos. With the domain knowledge of spammer seeds, we formulate and tackle the problem in a semi-supervised manner --- with the objective of searching for individuals that have similar pattern of behavior as the known seeds --- based on a graph diffusion process via local spectral subspace. We offer a fast, scalable MapReduce deployment adapted from the localized spectral clustering algorithm. We demonstrate the effectiveness of our deployment at Google by achieving an manual review accuracy of 98% on YouTube Comments graph in practice. Comparing with the state-of-the-art algorithm CopyCatch, Leas achieves 10 times faster running time. Leas is actively in use at Google, searching for daily deceptive practices on YouTube's engagement graph spanning over a billion users.
研究动机与目标
- 检测 YouTube 上的虚假社交互动,特别是传统基于文本的垃圾过滤器难以识别的细微、非明显的虚假评论。
- 应对识别协调性垃圾活动的挑战,这些活动虽模仿自然用户行为,但通过自动化或市场手段人为放大。
- 在保持高精度和低误报率的前提下,将检测能力扩展至拥有超过十亿用户的 YouTube 图谱。
- 通过利用图扩散进行种子扩展,自动发现新虚假账户,从而扩展现有滥用检测系统的覆盖范围。
- 提供一种可投入生产的、可通过 MapReduce 部署的分布式解决方案,实现实时检测欺骗性互动模式。
提出的方法
- 构建一个时间图,其中节点代表用户,边代表共互动事件(例如,在短时间内对同一视频进行评论)。
- 使用已知的垃圾用户种子作为局部谱聚类的初始点,识别具有相似行为模式的可疑用户群集。
- 应用一种局部谱扩散过程,仅在种子节点的邻域内优先扩展群集,从而提高效率和相关性。
- 将局部谱聚类算法适配至 MapReduce,以实现在十亿节点图上的分布式、可扩展处理。
- 利用共互动强度、月度活动量和评论相似性等行为特征来定义图结构并引导扩散过程。
- 在生产环境中部署该流水线,采用双层下架机制:基于置信度阈值的互动层级移除(软处罚)和账号层级封禁(硬处罚)。
实验结果
研究问题
- RQ1当传统基于文本的方法失效时,如何检测细微、不明显的虚假社交互动(如重复性、低信息量的评论,例如 'cool' 或 'yeah')?
- RQ2使用已知垃圾用户种子的半监督方法,能否有效将检测能力扩展至 YouTube 评论网络等大规模真实社交图谱?
- RQ3在分布式环境中,将局部谱聚类方法应用于十亿规模图谱时,其性能和可扩展性如何?
- RQ4与现有最先进方法(如 CopyCatch)相比,基于图的检测方法在准确率和速度方面表现如何?
- RQ5共互动强度和时间同步等行为模式在多大程度上能揭示协调性垃圾活动?
主要发现
- Leas 在检测虚假 YouTube 评论的人工审核中达到 98% 的准确率,证明其在识别恶意账号方面具有高精度。
- 该方法检测到 15 个账号在多个视频中发布完全相同的评论(如 'i love pets' 或 'yeah'),证实了协调性垃圾群集的存在。
- Leas 平均运行速度比最先进的 CopyCatch 算法快 10 倍,使其适合在大规模生产环境中每日使用。
- 该算法成功识别出 Tier II 账号——即行为更隐蔽、不那么明显为垃圾的账号——证实其具备检测演变中垃圾模式的能力。
- Leas 在 2015 年 8 月 6 日至 13 日期间部署于 YouTube 评论图谱,每日检测量稳定,以互动层级下架为主要处罚方式,表明其运行稳定且可扩展。
- 该方法有效扩展了检测覆盖范围,超越已知种子,发现了内部密度极高(>0.7)的整个共犯账号群集,验证了群集扩展策略的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。