[论文解读] Analysis of Social Media Data using Multimodal Deep Learning for Disaster Response
本论文提出一个多模态深度学习架构,将 Twitter 文本和附带图片融合,以提升 CrisisMMD 数据集上的灾难响应分类任务的性能,超越单模态基线。
Multimedia content in social media platforms provides significant information during disaster events. The types of information shared include reports of injured or deceased people, infrastructure damage, and missing or found people, among others. Although many studies have shown the usefulness of both text and image content for disaster response purposes, the research has been mostly focused on analyzing only the text modality in the past. In this paper, we propose to use both text and image modalities of social media data to learn a joint representation using state-of-the-art deep learning techniques. Specifically, we utilize convolutional neural networks to define a multimodal deep learning architecture with a modality-agnostic shared representation. Extensive experiments on real-world disaster datasets show that the proposed multimodal architecture yields better performance than models trained using a single modality (e.g., either text or image).
研究动机与目标
- 通过利用社交媒体中的文本和视觉线索,推动鲁棒的灾难响应分析。
- 研究多模态融合是否比单模态文本或图像模型提供更好的预测。
- 在 CrisisMMD 上为两个任务(信息性和人道主义分类)提供基线的多模态和单模态结果。
- 探讨多模态灾难数据分析的挑战和未来方向。
提出的方法
- 为文本和图像构建两条并行网络:一个基于 CNN 的文本模型,使用预训练的 word2vec 嵌入,以及一个基于 VGG16 的图像模型,预训练于 ImageNet。
- 从一个具有多种滤波器尺寸和最大池化的5层 CNN 中提取高级文本特征,然后经过全连接层。
- 从 VGG16 倒数第二个全连接层 fc2 提取图像特征,对最终层进行修改以适应任务特定的 softmax。
- 通过连接来自两种模态的 1,000 维隐藏表示来创建一个共享表示,随后经过一个全连接层和 softmax 进行预测。
- 训练三种设置:(i) 仅文本、(ii) 仅图像、(iii) 多模态(文本+图像);在固定测试集上评估。
- 使用 Adam 优化器、早停以及文本和图像数据的标准预处理。
实验结果
研究问题
- RQ1联合多模态表示是否能在危机相关社媒的信息性分类上优于单模态方法?
- RQ2与仅文本或仅图像模型相比,多模态模型是否能改善人道主义类别分类?
- RQ3在 CrisisMMD 数据集上,这两项任务的多模态融合带来哪些相对提升?
- RQ4在社交媒体帖子中对齐文本和图像数据时,可能存在冲突信号时会出现哪些挑战?
主要发现
| 训练模式 | 模态 | 准确率 | 精确度 | 召回率 | F1分数 |
|---|---|---|---|---|---|
| Unimodal | Text | 80.8 | 81.0 | 81.0 | 80.9 |
| Unimodal | Image | 83.3 | 83.1 | 83.3 | 83.2 |
| Multimodal | Text+Image | 84.4 | 84.1 | 84.0 | 84.2 |
| Unimodal | Text | 70.4 | 70.0 | 70.0 | 67.7 |
| Unimodal | Image | 76.8 | 76.4 | 76.8 | 76.3 |
| Multimodal | Text+Image | 78.4 | 78.5 | 78.0 | 78.3 |
- 多模态模型在信息性上达到 F1=84.2,超出文本单模态的 80.9 和图像单模态的 83.2。
- 多模态模型在人道分类上达到 F1=78.3,超出文本单模态的 67.7 和图像单模态的 76.3。
- 在两项任务中,图像单模态通常优于文本单模态,但多模态融合相对于图像单基线带来额外增益(信息性约 1%,人道约 2%)。
- 在 CrisisMMD 上的训练在一个研究中提供了两项任务的基线单模态和多模态结果。
- 作者指出,通过更大规模、更加优化的架构和更丰富的融合策略,仍有明显提升空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。