[论文解读] The Causal News Corpus: Annotating Causal Relations in Event Sentences from News
论文介绍了 Causal News Corpus(CNC),这是一个二进制数据集,用于标注新闻事件句子是否包含因果关系,并评估基于 BERT 的分类器以及与 PDTB-3 和 CTB 的跨数据集迁移。
Despite the importance of understanding causality, corpora addressing causal relations are limited. There is a discrepancy between existing annotation guidelines of event causality and conventional causality corpora that focus more on linguistics. Many guidelines restrict themselves to include only explicit relations or clause-based arguments. Therefore, we propose an annotation schema for event causality that addresses these concerns. We annotated 3,559 event sentences from protest event news with labels on whether it contains causal relations or not. Our corpus is known as the Causal News Corpus (CNC). A neural network built upon a state-of-the-art pre-trained language model performed well with 81.20% F1 score on test set, and 83.46% in 5-folds cross-validation. CNC is transferable across two external corpora: CausalTimeBank (CTB) and Penn Discourse Treebank (PDTB). Leveraging each of these external datasets for training, we achieved up to approximately 64% F1 on the CNC test set without additional fine-tuning. CNC also served as an effective training and pre-training dataset for the two external corpora. Lastly, we demonstrate the difficulty of our task to the layman in a crowd-sourced annotation exercise. Our annotated corpus is publicly available, providing a valuable resource for causal text mining researchers.
研究动机与目标
- 为新闻句子中的事件因果性创建一个二元注释方案,以容纳非从句式和多样化结构。
- 建立并发布带有专家注释的 CNC,覆盖成千上记的句子。
- 证明 CNC 能迁移到现有的因果性语料库,并可为相关任务预训练模型。
- 展示众包注释在此任务中的局限性,并激发专家注释的必要性。
提出的方法
- 基于 PDTB-3 与 TimeML 启发的事件参数,使用标准准则将来自抗议新闻的 3,559 条英文事件句子标注为 Causal 或 Non-causal。
- 采用五名注释者工作流,进行迭代的指南修订并由策展人计算 Krippendorff’s α 后最终确定标签。
- 在 CNC 上训练并评估基于 BERT 的二分类器,并与 LSTM 基线及简单的虚拟基线进行比较。
- 通过在 CNC、PDTB-3 以及 CTB(以及平衡变体)上训练并在 CNC 测试集及外部数据集上评估,测试跨数据集迁移。
- 引入迁移性度量(Transferability Rate),量化跨数据集的性能。
- 探索 CNC 作为预训练数据集,以在对外部语料库进行微调时提升像 bert-base-cased 这样的预训练语言模型的效果。
实验结果
研究问题
- RQ1一个二元因果事件句子分类器能否在使用现代预训练语言模型时在 CNC 上达到较高的 F1?
- RQ2CNC 与现有的因果性语料库(如 PDTB-3 与 CTB)在对齐和迁移方面表现如何?
- RQ3CNC 是否可以通过迁移学习提升对其他数据集的因果句子分类器的预训练效果?
- RQ4众包注释在此细微注释任务中是否有效,还是需要专家注释?
- RQ5在新闻句子中对非从句及多样_argument 结构进行注释时,需要哪些限制和指南?
主要发现
| F1(F1得分) | P(Precision) | R(Recall) | Acc(准确率) | MCC(Matthews相关系数) | |
|---|---|---|---|---|---|
| 行 1 全部因果 | 72.28 | 56.59 | 100.00 | 56.59 | 0.00 |
| 行 2 随机 | 55.72 | 56.61 | 54.92 | 50.66 | 0.00 |
| 行 3 CNC 训练 | 81.20 | 78.01 | 84.66 | 77.81 | 54.52 |
| 行 4 PDTB-3 | 55.43 | 81.32 | 42.05 | 61.74 | 32.09 |
| 行 5 PDTB-3 Bal | 64.45 | 77.60 | 55.11 | 65.59 | 34.75 |
| 行 6 CTB | 27.36 | 80.56 | 16.48 | 50.48 | 17.49 |
| 行 7 CTB Bal | 64.05 | 75.38 | 55.68 | 64.63 | 32.13 |
- CNC 在 CNC 测试集上以 BERT 基线达到 81.20% 的 F1、77.81% 的准确率和 54.52% 的 MCC。
- CNC 展示了对 PDTB-3(例如 55.43% F1、81.32% P、42.05% R)和 CTB Bal 的迁移能力(在某些设置下为 64.05% F1),并且平衡 CTB 的表现有所提升。
- 在 CNC 上进行训练可获得强大的 CNC 测试性能(表 3 行 3),并提供比单独使用外部语料库更好的迁移 backbone。
- 在 CNC 上进行预训练(CNC-PTM)后再微调 PDTB-3 或 CTB Bal,能在 F1 及相关指标上优于非 CNC 基线(表 5)。
- 众包对 CNC 子集的注释表现较差(Kappa 约 1.62%),凸显该任务的复杂性及对专家注释的需求。
- CNC 被提出作为事件因果(CTB)与语言学因果(PDTB)语料库之间的桥梁,并提出共享任务以推动该领域的发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。