Skip to main content
QUICK REVIEW

[论文解读] Machine Learning Based Detection of Clickbait Posts in Social Media

Xinyue Cao, Thai Le|arXiv (Cornell University)|Oct 5, 2017
Misinformation and Its Impacts参考文献 2被引用 25
一句话总结

本文提出了一种基于机器学习的方法,利用从标题、目标内容及其语义相似性中提取的60个高影响力特征,检测社交媒体中的点击诱饵帖子。在Clickbait Challenge 2017数据集上使用随机森林回归模型,模型在点击诱饵类别上的均方误差(MSE)为0.035,准确率为0.82,F1得分为0.61,表明来自帖子和目标文本的语言学与结构特征是点击诱饵意图的强有力预测因子。

ABSTRACT

Clickbait (headlines) make use of misleading titles that hide critical information from or exaggerate the content on the landing target pages to entice clicks. As clickbaits often use eye-catching wording to attract viewers, target contents are often of low quality. Clickbaits are especially widespread on social media such as Twitter, adversely impacting user experience by causing immense dissatisfaction. Hence, it has become increasingly important to put forward a widely applicable approach to identify and detect clickbaits. In this paper, we make use of a dataset from the clickbait challenge 2017 (clickbait-challenge.com) comprising of over 21,000 headlines/titles, each of which is annotated by at least five judgments from crowdsourcing on how clickbait it is. We attempt to build an effective computational clickbait detection model on this dataset. We first considered a total of 331 features, filtered out many features to avoid overfitting and improve the running time of learning, and eventually selected the 60 most important features for our final model. Using these features, Random Forest Regression achieved the following results: MSE=0.035 MSE, Accuracy=0.82, and F1-sore=0.61 on the clickbait class.

研究动机与目标

  • 开发一种可扩展的、数据驱动的方法,用于识别社交媒体中通过夸张或误导性标题误导用户的点击诱饵标题。
  • 从标题和目标内容中提取并评估一组全面的331个特征,以识别点击诱饵行为中最具预测性的指标。
  • 通过基于Fisher得分的特征选择方法,仅保留60个最重要的特征,以提升模型性能并减少过拟合。
  • 在选定特征上评估多种机器学习模型,并确定点击诱饵检测的最佳配置。
  • 分析模型的局限性,特别是对人类标注存在高度分歧的模糊案例的分类表现。

提出的方法

  • 作者收集并处理了来自Clickbait Challenge 2017的21,000条社交媒体标题数据,每条标题均经过至少五名众包工作者的标注。
  • 工程化了331个特征,包括词性标记频率、问号使用、情感强度,以及标题与目标内容之间的相似性等语言学、句法和语义指标。
  • 使用Fisher得分进行特征选择,以排序并保留最具有信息量的60个特征,从而减少过拟合并提升计算效率。
  • 最终模型采用随机森林回归与分类器进行训练,并通过在训练集上进行10折交叉验证对超参数进行调优。
  • 模型使用0.5的阈值将连续的点击诱饵得分转换为二元的点击诱饵/非点击诱饵预测结果,用于评估。
  • 对误分类样本进行了误差分析,以评估模型置信度及人类标注中的模糊性。

实验结果

研究问题

  • RQ1来自标题和目标内容的语言学与结构特征中,哪些最能预测点击诱饵行为?
  • RQ2与仅使用标题的模型相比,同时包含帖子和目标内容特征的模型在点击诱饵检测中表现有何提升?
  • RQ3特征选择与模型选择在点击诱饵检测中的影响程度如何,特别是在F1得分和MSE方面的表现?
  • RQ4为何模型在人类标注存在高方差的模糊案例上表现困难?
  • RQ5机器学习模型能否在真实世界、众包标注的点击诱饵数据集上实现高准确率和F1得分?

主要发现

  • 随机森林分类器在点击诱饵类别上实现了0.61的F1得分,表明其在区分点击诱饵与非点击诱饵内容方面表现优异。
  • 模型的MSE为0.035,准确率为0.82,表明其在Clickbait Challenge 2017数据集上具有极高的预测性能。
  • 与帖子相关的特征组表现最佳,尤其在降低MSE和提升准确率方面。
  • 通过特征选择,将特征数量从331个减少至60个,显著提升了模型效率并减少了过拟合。
  • 约48%的误分类样本的平均标注分数介于0.33至0.66之间,表明人类标注中的模糊性是影响模型泛化能力的关键挑战。
  • 排名前60的特征,包括词性模式、标点符号使用(如问号)以及标题与目标内容之间的语义相似性,被确定为预测点击诱饵最有效的指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。