QUICK REVIEW

[论文解读] Automated Multilingual Detection of Pro-Kremlin Propaganda in Newspapers and Telegram Posts

Veronika Solopova, Oana-Iuliana Popescu|arXiv (Cornell University)|Jan 1, 2023

Hate Speech and Cyberbullying Detection被引用 2

一句话总结

本文提出并比较了两种多语言方法——语言特征工程与多语言 BERT——用于检测乌克兰语、俄语、罗马尼亚语和英语的新闻文章及 Telegram 帖子中的亲克里姆林宫宣传。研究发现，手工构建的语言特征在不同语言和数据分布下展现出更高的鲁棒性和可解释性，而 BERT 模型虽性能出色，但存在误报和词元长度限制的问题，凸显了内容审核中透明度与可扩展性之间的权衡。

ABSTRACT

The full-scale conflict between the Russian Federation and Ukraine generated an unprecedented amount of news articles and social media data reflecting opposing ideologies and narratives. These polarized campaigns have led to mutual accusations of misinformation and fake news, shaping an atmosphere of confusion and mistrust for readers worldwide. This study analyses how the media affected and mirrored public opinion during the first month of the war using news articles and Telegram news channels in Ukrainian, Russian, Romanian, French and English. We propose and compare two methods of multilingual automated pro-Kremlin propaganda identification, based on Transformers and linguistic features. We analyse the advantages and disadvantages of both methods, their adaptability to new genres and languages, and ethical considerations of their usage for content moderation. With this work, we aim to lay the foundation for further development of moderation tools tailored to the current conflict.

研究动机与目标

开发自动化、透明且可解释的工具，用于在 2022 年俄罗斯-乌克兰战争期间检测多语言新闻和社交媒体中的亲克里姆林宫宣传。
探究语言特征是否能可靠地检测跨语言和媒体类型（如新闻与 Telegram）的宣传，而无需依赖关键词变化。
评估在自动化内容审核中，可解释性（手工特征）与性能（神经网络）之间的权衡。
解决部署此类工具带来的伦理问题，特别是可能压制合法言论的误报或导致宣传传播的漏报。
开源数据与代码，以支持乌兰语和俄语等资源匮乏语言的本地审核员和用户。

提出的方法

收集了乌克兰、俄罗斯、罗马尼亚及英语国家（英国/美国）的经事实核查和被标记为虚假新闻的新闻来源，在 2022 年战争首月的报道。
提取了包括句法复杂度、情感极性、词汇多样性以及修辞手法（如委婉语、道德愤怒）在内的语言特征，以表征宣传模式。
使用归一化特征向量构建支持向量机（SVM）分类器，基于风格和句法线索检测宣传。
在相同数据上微调多语言 BERT 模型，通过上下文嵌入将文本分类为亲克里姆林宫或亲西方。
采用网格搜索进行超参数调优：SVM 使用 RBF 核，gamma=100，C=46；微调 BERT 使用初始初始学习率 1e-4，训练 4 个周期，批量大小为 16。
在跨语言和媒体类型（新闻与 Telegram）的保留测试集上评估模型，分析性能、特征重要性及类别分布变化。

实验结果

研究问题

RQ1语言特征是否能在不依赖关键词的情况下，可靠地检测多种语言（乌克兰语、俄语、罗马尼亚语、英语）中的亲克里姆林宫宣传？
RQ2基于 BERT 的模型与手工特征模型在检测多语言、与战争相关的新闻和 Telegram 内容中的宣传时，表现如何比较？
RQ3在自动化内容审核中，模型可解释性（基于特征）与性能（神经网络）之间的权衡是什么？
RQ4模型性能以及误报/漏报率在不同语言和媒体类型（报纸与 Telegram）之间如何变化？
RQ5部署此类工具会引发哪些伦理风险，特别是可能压制合法言论或加剧信息回音室效应？

主要发现

基于语言特征的模型（SVM）在不同语言和数据分布中均表现出一致的性能，对主题变化和与战争相关的词汇变化具有鲁棒性。
基于 BERT 的模型在整体准确率上优于 SVM，但误报率更高，尤其在分布外数据上，可能压制合法内容。
手工特征在不同语言间更具可解释性和稳定性，即使在新类型或新语言上测试时性能下降也极小。
关键词仅在新数据上提升了 SVM 的性能，此时语义理解比形态句法模式更为关键。
BERT 模型的性能受词元长度限制，且在出现重大词汇变化时需重新训练，降低了其可扩展性。
两种模型均在某些情况下将亲西方内容误标为宣传，表明自动化工具可能放大而非缓解信息回音室和叙事偏见。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。