[论文解读] Machine Generation and Detection of Arabic Manipulated and Fake News
本文提出一种简单的方法,使用带有词性标注的数据和词嵌入,自动生成阿拉伯语操纵(且可能为假)新闻,提出 AraNews+,一个大型的带词性标注的阿拉伯语新闻数据集,构建操纵与假新闻检测器,并在阿拉伯语假新闻检测中达到最先进的结果。
Fake news and deceptive machine-generated text are serious problems threatening modern societies, including in the Arab world. This motivates work on detecting false and manipulated stories online. However, a bottleneck for this research is lack of sufficient data to train detection models. We present a novel method for automatically generating Arabic manipulated (and potentially fake) news stories. Our method is simple and only depends on availability of true stories, which are abundant online, and a part of speech tagger (POS). To facilitate future work, we dispense with both of these requirements altogether by providing AraNews, a novel and large POS-tagged news dataset that can be used off-the-shelf. Using stories generated based on AraNews, we carry out a human annotation study that casts light on the effects of machine manipulation on text veracity. The study also measures human ability to detect Arabic machine manipulated text generated by our method. Finally, we develop the first models for detecting manipulated Arabic news and achieve state-of-the-art results on Arabic fake news detection (macro F1=70.06). Our models and data are publicly available.
研究动机与目标
- 在数据稀缺的情况下,推动对假新闻和机器生成的阿拉伯语新闻的检测。
- Introduce AraNews, a large POS-tagged Arabic news dataset to support off-the-shelf research.
- Propose a simple automatic manipulation method that substitutes tokens using word embeddings.
- Create manipulated-news datasets ATB+ and AraNews+ to train detection models.
- Evaluate manipulated-text detection (MTD) and fake-news detection (FND) models, achieving strong results and showing data augmentation benefits.
提出的方法
- 将 ATB 和 AraNews 作为真实故事的种子。
- 对数据进行词性标注(ATB 已经标注;AraNews 通过 MADAMIRA 标注)。
- 在阿拉伯语语料上训练一个 300-dim(300 大小)的 AraNewsEmb 词嵌入。
- 按词性识别候选词:N_PROP、N_NUM、ADJ、ADJ_COMP、ADJ_NUM、NEG_PART。
- 用 AraNewsEmb 的 k 最近邻词替换每个候选词,使用 50% 的字符级相似度阈值。
- 去除否定,并用随机数字替换数字以得到操纵文本。
实验结果
研究问题
- RQ1自动阿拉伯语文本操纵是否能在没有外部检查的情况下生成看似可信的操纵/假新闻?
- RQ2人类对 proposed 方法生成的机器操纵阿拉伯语文本的检测能力有多高?
- RQ3在生成的操纵文本上训练的检测器能否提高阿拉伯语的假新闻检测性能?
- RQ4使用 AraNews+ 和 ATB+ 数据对操纵文本检测和假新闻检测的影响是什么?
主要发现
| Dataset | Model | Dev Acc | Dev F1 | Test Acc | Test F1 |
|---|---|---|---|---|---|
| ATB+ | mBERT | 77.16 | 77.08 | 77.42 | 77.36 |
| ATB+ | XLM-R Base | 81.72 | 81.72 | 83.22 | 83.20 |
| ATB+ | XLM-R Large | 82.41 | 82.38 | 81.38 | 81.36 |
| ATB+ | AraBERT | 83.19 | 83.17 | 82.63 | 82.62 |
| AraNews+ | mBERT | 79.39 | 79.38 | 83.51 | 83.52 |
| AraNews+ | XLM-R Base | 82.77 | 82.56 | 86.09 | 86.08 |
| AraNews+ | XLM-R Large | 82.12 | 82.10 | 86.35 | 86.35 |
| AraNews+ | AraBERT | 87.21 | 87.21 | 89.23 | 89.25 |
- 使用大型多语言模型在 ATB+ 与 AraNews+ 上的最佳操纵文本检测(MTD)性能,在 AraNews+(测试集)上达到宏观 F1 高达 89.25。
- MTD 结果显示 ATB+ 相较于 AraNews+ 更难检测操纵文本(F1:83.20 对 89.25,分别对应各自的测试集)。
- 在假新闻检测(FND)中以 Khouja 作为外部金标准,数据增强(AraNews+ 翻倍)达到 F1 70.06,优于基线。
- 仅用生成数据进行零-shot FND 时达到显著的 F1(最高 52.71),表明生成数据对检测任务在没有金标准训练数据时的实用性。
- 作者公开发布 AraNews、ATB+、AraNews+ 及检测模型,供研究使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。