Skip to main content
QUICK REVIEW

[论文解读] Twitter as a Lifeline: Human-annotated Twitter Corpora for NLP of Crisis-related Messages

Muhammad Imran, Prasenjit Mitra|arXiv (Cornell University)|May 19, 2016
Public Relations and Crisis Communication参考文献 16被引用 144
一句话总结

本文提出跨19起灾难(2013–2015)收集的大规模、人工标注的危机相关推特语料库,建立分类器(朴素贝叶斯 NB、SVM、随机森林 RF),并发布52百万条危机推文的词嵌入及用于 OOV 术语归一化的资源。

ABSTRACT

Microblogging platforms such as Twitter provide active communication channels during mass convergence and emergency events such as earthquakes, typhoons. During the sudden onset of a crisis situation, affected people post useful information on Twitter that can be used for situational awareness and other humanitarian disaster response efforts, if processed timely and effectively. Processing social media information pose multiple challenges such as parsing noisy, brief and informal messages, learning information categories from the incoming stream of messages and classifying them into different classes among others. One of the basic necessities of many of these tasks is the availability of data, in particular human-annotated data. In this paper, we present human-annotated Twitter corpora collected during 19 different crises that took place between 2013 and 2015. To demonstrate the utility of the annotations, we train machine learning classifiers. Moreover, we publish first largest word2vec word embeddings trained on 52 million crisis-related tweets. To deal with tweets language issues, we present human-annotated normalized lexical resources for different lexical variations.

研究动机与目标

  • 提供来自19 crises (2013–2015) 的大规模、人工标注的推特语料库,以促成危机信息处理的NLP研究。
  • 创建与联合国人道事务协调办公室(UN OCHA)分类相一致的标注方案,以便获得可行动的危机信息。
  • 开发基线分类器和公开的词嵌入,以支持快速灾害响应研究。

提出的方法

  • 通过 AIDR 平台在19起灾难及多种语言中收集危机相关推文。
  • 用受 UN OCHA 启发的类别对推文进行标注,并为 OOV 术语提供归一化提示进行分离。
  • 使用经过预处理的单字/双字词,结合信息增益选择1k特征,训练多类分类器(朴素贝叶斯 NB、SVM、随机森林 RF)。
  • 从危机语料库训练52百万推文的 word2vec 嵌入(CBOW、300维、负采样)。
  • 使用 CrowdFlower 识别并众包 OOV术语的归一化,初始候选集基于词典的规则集和编辑距离校正。

实验结果

研究问题

  • RQ1一个大型、人工标注的危机推文语料库能否提高对危机相关信息的监督分类?
  • RQ2哪些有效的危机相关 Twitter 数据标注方案能够与人道需求保持一致?
  • RQ3跨多起灾难的嘈杂、简短危机信息上,标准分类器的表现如何?
  • RQ4大规模危机词嵌入在灾害应对的后续NLP任务中提供了哪些效用?
  • RQ5如何系统地识别并归一化危机推文中的 OOV 词,以支持 NLP 管线?

主要发现

  • 标注数据集覆盖大约 50,000 条消息,包含主题类别和 OOV 归一化术语。
  • 三种分类器(SVM、NB、RF)在多个灾难数据集上实现可接受的 AUC(大多数类别≥0.80),但较小的“missing trapped/found”类别表现较弱。
  • 在52百万条危机推文上训练的 Word2vec 嵌入构成研究者可获得的首个也是最大的危机专用嵌入资源。
  • 通过众包方式产生的 OOV 归一化资源,解决错别字、缩写、俚语和非标准形式,以帮助 NLP 任务中的归一化。
  • 数据集覆盖跨越多个国家和语言的19个危机事件,提升跨方言鲁棒性和 NLP 模型的更广泛适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。