Skip to main content
QUICK REVIEW

[论文解读] Online Fake Review Detection Using Supervised Machine Learning And BERT Model

Abrar Qadir Mir, Furqan Yaqub Khan|arXiv (Cornell University)|Jan 9, 2023
Spam and Phishing Detection被引用 11
一句话总结

论文使用基于 BERT 的词嵌入并结合传统分类器,发现 SVM 具有最佳准确率(87.81%),领先前一项研究 7.6%。

ABSTRACT

Online shopping stores have grown steadily over the past few years. Due to the massive growth of these businesses, the detection of fake reviews has attracted attention. Fake reviews are seriously trying to mislead customers and thereby undermine the honesty and authenticity of online shopping environments. So far, various fake review classifiers have been proposed that take into account the actual content of the review. To improve the accuracies of existing fake review classification or detection approaches, we propose to use BERT (Bidirectional Encoder Representation from Transformers) model to extract word embeddings from texts (i.e. reviews). Word embeddings are obtained in various basic methods such as SVM (Support vector machine), Random Forests, Naive Bayes, and others. The confusion matrix method was also taken into account to evaluate and graphically represent the results. The results indicate that the SVM classifiers outperform the others in terms of accuracy and f1-score with an accuracy of 87.81%, which is 7.6% higher than the classifier used in the previous study [5].

研究动机与目标

  • 在日益扩张的在线购物环境中,推动需要可靠的假评论检测的必要性。
  • 研究基于 BERT 的词嵌入在假评论分类中的有效性。
  • 比较使用 BERT 特征的有监督机器学习分类器(例如 SVM、Random Forest、Naive Bayes)。
  • 使用混淆矩阵派生的指标(如准确率和 F1 分数)评估模型性能。

提出的方法

  • 使用 BERT 模型从评论中提取词嵌入。
  • 在 BERT 特征上训练有监督分类器(SVM、Random Forest、Naive Bayes 等)。
  • 使用准确率和 F1 分数评估分类器,并通过混淆矩阵汇总结果。
  • 与前一项研究的结果进行比较以评估改进。
  • 报告 SVM 的表现优于其他方法,准确率为 87.81%。

实验结果

研究问题

  • RQ1基于 BERT 的词嵌入是否可以在标准有监督分类器中提高假评论检测的性能?
  • RQ2在使用 BERT 特征时,哪个分类器(如 SVM、Random Forest、Naive Bayes 等)最能检测出假评论?
  • RQ3与先前的假评论检测方法相比,所提出的方法在准确率和 F1 分数方面有何差异?

主要发现

  • 使用 BERT 嵌入的 SVM 具有最高的准确率,为 87.81%。
  • 所提出的方法比前一研究中使用的分类器高出 7.6%。
  • 来自 BERT 的词嵌入在与监督学习器结合时,是假评论分类的有效特征。
  • 基于混淆矩阵的评估支持所报告的准确率和 F1 分数的改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。