Skip to main content
QUICK REVIEW

[论文解读] Mining User Comment Activity for Detecting Forum Spammers in YouTube

Ashish Sureka|arXiv (Cornell University)|Mar 25, 2011
Spam and Phishing Detection参考文献 11被引用 47
一句话总结

本文提出一种基于规则的方法,通过分析用户评论活动模式(如重复评论、发帖时间间隔极短、高比例的垃圾评论标记)来检测 YouTube 评论垃圾信息发送者。基于对 240 名用户和 13,000 条评论的实证分析,研究发现 PCHF > 70%、ATDC < 150 秒、VIDOVP > 60% 等特征是垃圾行为的强指标,通过行为启发式方法实现了可靠的检测。

ABSTRACT

Research shows that comment spamming (comments which are unsolicited, unrelated, abusive, hateful, commercial advertisements etc) in online discussion forums has become a common phenomenon in Web 2.0 applications and there is a strong need to counter or combat comment spamming. We present a method to automatically detect comment spammer in YouTube (largest and a popular video sharing website) forums. The proposed technique is based on mining comment activity log of a user and extracting patterns (such as time interval between subsequent comments, presence of exactly same comment across multiple unrelated videos) indicating spam behavior. We perform empirical analysis on data crawled from YouTube and demonstrate that the proposed method is effective for the task of comment spammer detection.

研究动机与目标

  • 探究用户评论活动模式是否可作为 YouTube 论坛中垃圾信息发送者检测的可靠指标。
  • 通过引入基于使用行为的特征,弥补基于内容的垃圾信息检测方法的局限性。
  • 通过实证方法验证评论重复性和时间间隔等行为标记在识别垃圾信息发送者方面的有效性。
  • 提出一种新颖的用户级分类方法,与基于消息的垃圾信息检测方法相区别。

提出的方法

  • 该方法从 YouTube 提取用户评论活动日志,提取时间间隔(ATDC)、跨视频评论重复性(CRR)和垃圾标记流行度(PCHF)等行为特征。
  • 计算视频重叠度(VIDOVP)和评论重叠度(COMOVP),以检测用户在多个无关视频中发布相同内容的行为。
  • 定义基于规则的分类器,使用阈值:SPAMMER = (PCHF > 70) OR (ATDC < 150) OR (COMOVP > 0.60) OR (VIDOVP > 0.60)。
  • 系统使用 YouTube 的 hasSpamHint 标志作为真实标签的代理,尽管其并不完全全面,并辅以人工验证进行补充。
  • 在爬取的 240 名用户、超过 13,000 条评论的数据集上进行实证评估,重点关注评论数超过五条的用户。
  • 通过多维可视化与统计分析(如垃圾评论比例 vs. CRR、ATDC vs. 评论数)识别垃圾信息发送者聚类。

实验结果

研究问题

  • RQ1能否利用评论重复性和时间间隔等用户评论活动模式来检测 YouTube 论坛中的评论垃圾信息发送者?
  • RQ2基于使用行为的特征(如评论重复性和时间间隔)在区分垃圾信息发送者与合法用户方面有多高效?
  • RQ3现有基于内容的垃圾信息检测系统在多大程度上未能识别垃圾信息发送者,行为分析能否弥补这一差距?
  • RQ4YouTube 评论日志中哪些行为标记最能指示垃圾信息行为?

主要发现

  • 评论数超过 30 条且 CRR 值高于 0.7 的用户,其超过 80% 的评论被版主标记为垃圾,证实高重复性是强垃圾信息指标。
  • 垃圾信息发送者经常在多个无关视频中发布完全相同的评论,确认案例中 VIDOVP 值超过 60%。
  • 大量垃圾评论未被 hasSpamHint 标记,表明需要自动化的行为检测来补充人工标记。
  • 基于规则的分类器检测准确率较高,ATDC 与评论数散点图中位于右下象限的用户(ATDC < 150 秒,评论数 >20 条)是强垃圾信息发送者候选。
  • 人工检查确认,模型识别出的用户发布了完全相同或几乎相同的垃圾内容,如 'PLZ SUBSCRIBE' 和推广链接。
  • 高 PCHF(>70%)、低 ATDC(<150 秒)以及高 COMOVP/VIDOVP 值的组合可可靠识别垃圾信息发送者,验证了启发式模型的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。