[论文解读] Transformer based Automatic COVID-19 Fake News Detection System
本论文提出基于 transformer 的集成模型(BERT、ALBERT、XLNet)用于 COVID-19 假新闻检测,在 ConstraintAI 2021 English 数据集上实现了最先进的性能,F1-score 为 0.9855,在 160 支队伍中排名第 5。
Recent rapid technological advancements in online social networks such as Twitter have led to a great incline in spreading false information and fake news. Misinformation is especially prevalent in the ongoing coronavirus disease (COVID-19) pandemic, leading to individuals accepting bogus and potentially deleterious claims and articles. Quick detection of fake news can reduce the spread of panic and confusion among the public. For our analysis in this paper, we report a methodology to analyze the reliability of information shared on social media pertaining to the COVID-19 pandemic. Our best approach is based on an ensemble of three transformer models (BERT, ALBERT, and XLNET) to detecting fake news. This model was trained and evaluated in the context of the ConstraintAI 2021 shared task COVID19 Fake News Detection in English. Our system obtained 0.9855 f1-score on testset and ranked 5th among 160 teams.
研究动机与目标
- 推动并应对社交媒体上关于 COVID-19 的错误信息传播。
- 开发一个高效的假新闻检测系统,利用 transformer 模型。
- 在标准的COVID-19假新闻数据集上评估单模型与集成 transformer 模型。
提出的方法
- 对社交媒体文本进行情感符号归一化、话题标签处理、词干提取和清理。
- 使用 TF-IDF、GloVe 词嵌入和神经网络架构,对传统机器学习、深度学习及 transformer 方法进行比较。
- 使用 HuggingFace 对 BERT、ALBERT、XLNet 进行微调与集成,采用 softmax 概率的平均作为最终决策。
实验结果
研究问题
- RQ1相较于传统机器学习/深度学习方法,BERT、ALBERT、XLNet 这类 transformer 模型在 COVID-19 假新闻检测中的表现如何?
- RQ2对多个 transformer 的集成是否优于单一模型的检测性能?
- RQ3所提出模型在 ConstraintAI 2021 COVID-19 英文假新闻数据集上的表现如何?
主要发现
- BERT、ALBERT 和 XLNet 的集成在测试集上取得最高的 F1-score 为 0.9855。
- Transformer 基于的模型在该任务上优于传统 ML 以及部分 DL 模型。
- 单独的 transformer(BERT、XLNet、ALBERT)表现强劲,但略低于集成。
- 该系统在 ConstraintAI 2021 共享任务中在 160 支队伍中排名第 5。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。