QUICK REVIEW

[论文解读] Automated Extraction of Socio-political Events from News (AESPEN): Workshop and Shared Task Report

Ali Hürriyetoğlu, Vanni Zavarella|arXiv (Cornell University)|May 12, 2020

Computational and Text Analysis Methods被引用 23

一句话总结

本论文介绍了AESPE N研讨会及共享任务，聚焦于从新闻中自动提取社会政治事件，特别是事件句子共指识别（ESCI），以聚类指代同一事件的句子。该研究评估了多种机器学习模型，包括ALBERT和基于图的重排序方法，取得了ARI为0.6006、F1为0.6736的性能，展现出最先进水平，凸显了在跨语言和跨领域事件抽取中建立标准化基准的必要性。

ABSTRACT

We describe our effort on automated extraction of socio-political events from news in the scope of a workshop and a shared task we organized at Language Resources and Evaluation Conference (LREC 2020). We believe the event extraction studies in computational linguistics and social and political sciences should further support each other in order to enable large scale socio-political event information collection across sources, countries, and languages. The event consists of regular research papers and a shared task, which is about event sentence coreference identification (ESCI), tracks. All submissions were reviewed by five members of the program committee. The workshop attracted research papers related to evaluation of machine learning methodologies, language resources, material conflict forecasting, and a shared task participation report in the scope of socio-political event information collection. It has shown us the volume and variety of both the data sources and event information collection approaches related to socio-political events and the need to fill the gap between automated text processing techniques and requirements of social and political sciences.

研究动机与目标

通过在多语言和多源数据中实现大规模、可复现的社会政治事件信息收集，弥合自然语言处理与社会/政治科学之间的差距。
解决社会政治语境下事件抽取缺乏标准化评估基准和标准语料库的问题。
设立事件句子共指识别（ESCI）共享任务，以评估能够将指代同一事件的句子聚类的系统。
通过将技术方法与冲突预测和政治事件监测等实际应用场景对齐，促进自然语言处理研究人员与社会科学家之间的协作。
评估设计选择（如共指处理和多语言数据使用）对系统性能和可复现性的影响。

提出的方法

在LREC 2020上组织了聚焦于事件句子共指识别（ESCI）的共享任务，要求系统将指代同一社会政治事件的句子进行聚类。
使用包含共指标注标准答案的基准数据集，通过ARI和F1分数评估聚类性能。
提出三步法：(1) 使用基于Transformer的模型（ALBERT）预测句子对之间的相似性；(2) 考虑每个句子与其他句子的关系，对得分进行重排序；(3) 使用得分最高的句子对构建聚类。
评估了多种基线系统，包括简单的基于规则的方法和使用FASTTEXT词向量的系统，以建立性能基线。
应用迁移学习技术，使用BERT和ALBERT等预训练模型，提升在低资源语言中的零样本和少样本泛化能力。
开展消融研究，评估共指消解和句子表示质量对聚类准确率的影响。

实验结果

研究问题

RQ1最先进自然语言处理模型在识别指代同一社会政治事件的共指句子方面效果如何？
RQ2在事件共指消解中，引入超越成对得分的全局句子关系，能在多大程度上提升聚类性能？
RQ3不同预训练语言模型（如ALBERT、BERT、FASTTEXT）在低资源和非英语社会政治新闻上的表现如何？
RQ4设计选择（如仅使用标题句子或忽略共指）对系统性能和可复现性有何影响？
RQ5是否可通过共享基准和标准化评估指标，实现跨项目和多语言社会政治事件抽取的更一致、可比的进展？

主要发现

最佳系统在ESCI共享任务中取得了0.6006的调整兰德指数（ARI）和0.6736的F1分数，展现出最先进性能。
基于ALBERT的模型结合基于图的重排序方法，显著优于基线系统，包括基于规则的方法和FASTTEXT模型。
共享任务表明，共指消解是事件抽取中的关键但尚未被充分开发的环节，通过建模超越成对比较的句子关系可带来显著性能提升。
研讨会吸引了多样化贡献，包括针对阿拉伯语和希腊语新闻源的研究，凸显了多语言事件抽取的可行性与重要性。
尽管已有进展，结果仍强调需要建立标准化、可复现的基准和标准语料库，以实现公平比较和可扩展部署。
本研究证实，尽管深度学习模型展现出强大潜力，但在真实场景中，由于模型固有的局限性，仍需人工介入进行质量管控，以确保高质量事件数据库的构建。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。