[论文解读] Fine-Grained Analysis of Propaganda in News Articles
本研究提出了一种细粒度片段级的宣传检测方法,标注了 18 种技术,建立了一个大型带标注的语料库,提出了一个评估指标,并展示了一个多粒度神经网络,显著优于强大的 BERT 基线。
Propaganda aims at influencing people's mindset with the purpose of advancing a specific agenda. Previous work has addressed propaganda detection at the document level, typically labelling all articles from a propagandistic news outlet as propaganda. Such noisy gold labels inevitably affect the quality of any learning system trained on them. A further issue with most existing systems is the lack of explainability. To overcome these limitations, we propose a novel task: performing fine-grained analysis of texts by detecting all fragments that contain propaganda techniques as well as their type. In particular, we create a corpus of news articles manually annotated at the fragment level with eighteen propaganda techniques and we propose a suitable evaluation measure. We further design a novel multi-granularity neural network, and we show that it outperforms several strong BERT-based baselines.
研究动机与目标
- 说明需要进行片段级的宣传分析,而非文档级标注的动机。
- 创建一个高质量的语料库,专家在片段层面对 18 种宣传技巧进行标注。
- 提出一个能够兼容部分重叠和不同片段长度的评估度量。
- 开发一个多粒度神经网络,利用较低粒度信号来改进较高粒度的预测。
- 证明所提模型在片段级和句子级任务上优于强大的基于 BERT 的基线。
提出的方法
- 定义适用于片段级标注的 18 种新闻宣传技巧。
- 组装并标注一个包含 451 篇新闻文章(350k 个标记)的语料库,具备片段级的技巧标注。
- 提出一种受抄袭检测和基于命名实体识别思想启发的部分重叠感知评估指标。
- 开发一个多颗粒度网络,利用较低粒度信号(句子级)来指导较高粒度的预测(片段级)。
- 微调基线模型(BERT、BERT-Joint、BERT-Grain),并与所提的多粒度网络进行比较。
- 在两个任务上进行评估:SLC(句子级分类)和 FLC(片段级分类),采用定制的损失和门控机制。
实验结果
研究问题
- RQ1我们能在新闻文章中可靠地在细粒度层面检测和标注宣传片段吗?
- RQ2利用句子级信号的多粒度架构是否能在片段级宣传检测上优于标准的 BERT 基线?
- RQ3所提的评估度量在奖励部分重叠和不同片段长度方面有多有效?
主要发现
| 模型 | 跨度 | 全任务 - P | 全任务 - R | 全任务 - F1 | 备注 |
|---|---|---|---|---|---|
| BERT | 39.57 | 21.48 | 21.39 | 21.39 | Spans; Full-task results shown together in table |
| BERT-Joint | 39.26 | 20.11 | 19.74 | 19.92 | Joint training for SLC and FLC |
| Granu | 43.08 | 23.85 | 20.14 | 21.80 | Sentence-level info integrated into FLC |
| Multi-Granularity - ReLU | 43.29 | 23.98 | 20.33 | 21.82 | Gate-based fusion; aggressive filtering |
| Multi-Granularity - Sigmoid | 44.12 | 24.42 | 21.05 | 22.58 | Gate-based fusion; partial overlaps credited |
- 语料库中存在 7,485 个宣传技巧实例,分布在 21,230 条句子(占比 35.2%)。
- 最常见的技巧是情感化语言(2,547 例)和叫名/标签化(1,294 例)。
- 所提的多粒度网络(MGN)在片段级检测上优于基于 BERT 的基线,尤其是在使用门控机制(Sigmoid 或 ReLU)时。
- 在片段级检测中,MGN 采用 Sigmoid 在完整任务评估中的 P=24.42、R=21.05、F1=22.58,且比基线具有更高的精确率。
- 在句子级检测中,MGN 相对于 BERT 基线有明显提升,在 all-propaganda 设置下将召回率提高 8.42%并将 F1 提高 3.24 点。
- 研究表明,纳入较低粒度信号可以显著提升更高粒度任务,而负向门控会降低噪声负样本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。